Retour page d'accueil
ISO 9001 y ISO 14001
Version FrançaiseEnglish VersionVersion arabe

Gama de Productos

ECM - BPM
Gargantua 7

EDMS
Gargantua 5
Gargantua 5 Web
Cold
Push
Thesaurus Manager

Workflow
NORA

Adr/Adp
LARA

Hardware
Scanners
Jukebox

ImprimirRecibir una documentación

LARA es el módulo de tratamiento automático de documentos de la gama de software de gestión de la información de SIATEL. Incluye entre otras las funciones comúnmente llamadas LAD (Lectura Automática de Documentos) y RAD (Reconocimiento Automático de Documentos).

LARA ha sido desarrollado para capturar la información que proviene de diversas fuentes, tratarla de forma automática y exportarla hacia bases de datos o sistemas de gestión. LARA automatiza a lo máximo el tratamiento de documentos con una eficiencia y una calidad que le aseguran éxito y rentabilidad. LARA es la solución ideal: fácil de poner en práctica, fácil de uso, muy flexible; rebasa todas las exigencias de los usuarios en materia de seguridad y adaptación.

LARA puede utilizarse de diversos modos y principalmente:

  • como solución autónoma: captura datos que provienen de formularios y documentos de diferentes tipos pero iterativos;
  • como módulo de lectura y registro de documentos que luego se almacenan en un software de GEDD como Gargantua, o se integran en un proceso de workflow con un software como Nora.

LARA procesa documentos mecanografiados (OCR), caracteres y números manuscritos (ICR), marcas: “8”, “4”, etc. (OMR), diferentes códigos de barras y códigos CMC7. Los ámbitos de aplicación son numerosos. Entre los principales podemos mencionar la gestión de facturas y de formularios de todo tipo, como por ejemplo los que se usan para depósitos bancarios, cuestionarios, nóminas...

LARA, solución autónoma, permite digitalizar lotes de documentos de papel homogéneos y heterogéneos y capturar todo tipo de documentos electrónicos (faxes, archivos Office...), tratar archivos para mejorar la calidad de las imágenes, reconocer y verificar datos gracias a diversos métodos, para luego exportarlos y utilizarlos en otros software.

En su versión estándar, LARA dispone de un módulo de creación de formularios que proporciona óptima calidad a éstos y por consiguiente a su futuro procesamiento.

En cualquier tipo de organización, LARA mejora considerablemente el tratamiento de los documentos poniendo su contenido a disposición inmediata. Resultados: mejor calidad de servicio, más alta competitividad, inversión recuperada rápidamente gracias un aumento de la productividad, seguridad óptima. Con LARA se liberan recursos para las tareas de más alto valor añadido.

LARA, se compone de diferentes módulos que contienen todas las funcionalidades necesarias para poner en marcha simple y rápidamente una solución eficiente de captura, tratamiento y gestión automática de documentos.

Acceder al capítulo ...

1) Creación de modelos de tratamiento

LARA dispone de un módulo dedicado a la creación de formularios. Por ser un caso muy específico se describirá más adelante. Véase párrafo 8.

El módulo de creación de modelos de LARA permite determinar, de forma sencilla gracias a un asistente, las reglas que rigen la extracción de las informaciones contenidas en los documentos o formularios. Para que LARA pueda procesarlos, todos los tipos de documentos deben ser vinculados cáda uno con un modelo. Así se constituye y se enriquece poco a poco una base de modelos.

Un modelo se constituye de bloques de datos y de reglas automáticas de validación. Los bloques son elementos importantes de un modelo ya que gracias a ellos se identifican las áreas que se han de reconocer y las demás; se señalan las marcas que permiten vincular un documento con un modelo y se endereza la imagen para obtener la mejor taza de reconocimiento.


Figura 1: Editor de modelos de LARA

Ejemplo: Esta figura muestra la etapa en que se definen los bloques de un modelo. Los rectángulos rojos indican las áreas consideradas como imagen (que no se han de reconocer), los bloques verdes contienen el texto que debe ser leído, los bloques naranjos contienen las casillas de marcar (bloques 1, 2 y 3). El bloque 4 que reúne los bloques 1, 2 y 3 indica la presencia de una regla.

Entre las principales propiedades de los bloques se pueden nombrar: los tipos de bloques (texto, marca, código de barras, imagen), los tipos de letras (mayúscula, minúscula), los tipos de cifras o datos (ejemplo: un número de teléfono debe componerse de n cifras y empezar con el indicativo n’), los diccionarios y listas, las opciones de reconocimiento y de verificación. Estas propiedades permiten en particular mejorar la extracción de las informaciones de los bloques de datos, y optimizar el proceso de tratamiento.

En los modelos se pueden determinar reglas automáticas de validación. Una regla de validación es una serie de condiciones que los datos leídos han de satisfacer (ejemplo: el resultado de la lectura de un día debe estar comprendido entre 1 y 31, salvo si el mes es igual a 02, etc.). Se determinan reglas para:

  • verificar el formato de los datos reconocidos y normalizarlos si es necesario (ejemplo: se puede establecer una regla para verificar y normalizar las fechas),
  • comparar el resultado del reconocimiento con las listas y bases de datos de valores autorizados,
  • verificar las relaciones entre varios bloques (ejemplo: verificar que un valor numérico en cifras corresponde al mismo con todas sus letras, verificar si la suma de dos valores es correcta...)
  • verificar los resultados de operaciones aritméticas o de fusión de campos...


Figura 2: Determinar reglas de validación de un modelo

Para simplificar la organización del proceso de extracción automática de informaciones de los formularios, LARA procede por lotes. Un lote se compone de modelos y de páginas: cada una representa la imagen digitalizada de un documento completado. Un modelo caracteriza una página y contiene las informaciones necesarias para identificar y reconocer su contenido. En un lote pueden haber hasta 99 modelos, es decir 99 tipos de documentos diferentes.


Figura 3: Determinar la composición de un lote
En este ejemplo el lote contiene dos modelos : un modelo Frente y un modelo Dorso.

Para cada lote se determinan no sólo los modelos, sino también las reglas de exportación de los datos obtenidos. Es posible exportar los datos en diversos formatos de texto simple como XML, por ejemplo, o via objetos OLE, hacia aplicaciones externas en las que se utilizarán ulteriormente.

2) Arquitectura y administración de la producción

El proceso de tratamiento efectivo de documentos comprende varias etapas sucesivas: digitalización, reconocimiento, verificación, validación y exportación de los datos para su utilización ulterior. Dichas etapas pueden ser realizadas por el mismo operador con el mismo ordenador, o por operadores diferentes cada uno con su ordenador, también se pueden agrupar y secuenciar.

LARA es un producto a la vez flexible y totalmente extensible. Si, por ejemplo, la etapa de reconocimiento requiere una potencia de procesamiento importante o demora mucho tiempo, es posible repartirla entre varios ordenadores, todos dedicados a dicha operación. Si la verificación de los lotes se revela demasiado lenta, es posible agregar ordenadores adicionales dedicados a ella. Debe adaptarse la arquitectura al caso presente según criterios como cantidades, imperativos de plazos, etc.

El ordenador de administración se utiliza para parametrar el proceso de tratamiento, determinar los modelos, los lotes y eventualmente crear los formularios. Desde el mismo ordenador se puede vigilar el proceso de tratamiento.


Figura 4 : Diagrama sinóptico del proceso de tratamiento

Por lo general se prevén varios tipos de ordenadores:

  • Máquina de digitalización: punto de partida del proceso de tratamiento. Genera lotes que contienen documentos digitalizados.
  • Máquina de reconocimiento: recibe los lotes digitalizados. En una operación automática identifica (vinculando un modelo de reconocimiento con cada imagen) y reconoce las imágenes del lote (aplicando el modelo de reconocimiento que corresponde a cada imagen). Es necesario que intervenga un operador solo en el caso poco probable de que surja un error al identificar una página. Si asi fuera, ésta sería colocada en una cesta de postratamiento.
    Al cabo de esta etapa, los son están identificados y reconocidos.
  • La máquina de verificación y validación: recibe los lotes identificados y reconocidos. El tratamiento de validación es un proceso doble:
    • automático en primer lugar, consiste en controlar los datos reconocidos, gracias a las reglas de validación relacionadas con bases de datos, diccionarios, etc.
    • luego manual, para corregir discrepancias: los caracteres ambiguos están expresamente marcados para que el operador proceda a un control visual. El operador corrige los errores de eventuales de reconocimiento. Otra vez, las reglas de validación facilitan la tarea de verificación manual y pueden utilizarse para modificar los resultados del reconocimiento.
    Al cabo de esta etapa, los lotes quedan validados.
  • La máquina de exportación: recibe los lotes validados y exporta los datos según las reglas predeterminadas. El proceso de exportación es automático. No es preciso que intervenga un operador.

3) Captura

LARA utiliza los módulos de digitalización de GARGANTUA lo que le permite manejar numerosos escáneres, tanto básicos como muy poderosos, gracias a sus propios drivers y sin agregar ningún módulo externo. De este modo, los documentos se integran directa e instantáneamente en las tareas, en vez de proceder en varias etapas. El modo Twain también está a disposición para aquellos escáneres que no tengan driver interno.

Para facilitar la utilización de los periféricos de digitalización, es posible guardar los parámetros de brillo, contraste, compresión, etc. Esto permite recuperar directamente parámetros perfectamente adaptados al tipo y a la calidad del papel escaneado, sin tener que especificarlos cada vez que sea necesario. También existen funciones de detección y de ajuste automático de umbrales de parametraje que se pueden aplicar a cada documento, para digitalizar papeles totalmente heterogéneos.


Figura 5: Parametraje en línea de un escáner

Cada documento digitalizado se almacena con un tipo de archivo específico y se comprime según el modo y el formato que correspondan mejor al tipo documento. LARA dispone en estándar de los principales formatos de compresión como CCITT G4, JPEG, GIF, PNG, etc., para integrar las imágenes en blanco y negro, color o escalas de gris. Con una función específica se cambia el formato de archivo y el tipo de compresión.

Cualquiera que sea el modo de integración de los documentos, éstos se descomprimen de forma instantánea. Luego un módulo de control de la calidad de digitalización permite “hojear” el contenido de los lotes, página por página.


Figura 6: Opciones disponibles para dos tipos de formatos de archivos, con sus opciones de compresión.

Además de la digitalización, se pueden aplicar diversas funciones dichas de “tratamiento de imagen” para incrementar la calidad y la legibilidad de los documentos. LARA dispone de numerosas herramientas de ese tipo entre las cuales funciones para enderezar automáticamente, girar por múltiples de 90° o por selección del ángulo, detectar la orientación de las páginas, offset, reposicionar, limpiar, desmanchar, controlar el contraste, etc.

4) Identificación

La identificación es la primera etapa del tratamiento: es un proceso automático que se aplica a cada página de cada lote. En un lote de documentos variados el tipo de cada uno se determina mediante algoritmos de reconocimiento de forma. Se puede entonces aplicar a los documentos un tratamiento de reconocimiento adaptado a su estructura. Esa función generalmente comúnmente llamada RAD permite identificar una cantidad infinita de formatos o de estructuras con una tasa de éxito próxima del 100%.

Ejemplos :

  • Tratamiento de formularios multipáginas: cuando se digitaliza un formulario, éste genera varios archivos que no se colocan sistemáticamente en un orden definido (si por ejemplo uno formulario ha sido colocado al revés en el escáner). Es necesario entonces reposicionar los archivos para poder exportar los datos que contienen en el orden debido.
  • Tratamiento de facturas de proveedores: ya que puede haber una multitud de modelos es preciso identificarlas antes de pasar al reconocimiento. Es posible aplicarles funciones para enderezar, girar, extraer los datos relevantes: código del proveedor, número de factura, fecha, tipo de mercancía, importes y otras referencias, por ejemplo.

En un lote, la operación se considera acabada cuando todas las imágenes han sido identificadas. Se presentan al operador los errores eventuales para que éste pueda corregirlos.

5) Reconocimiento

El reconocimiento es la etapa principal del tratamiento: se trata de un proceso automático que se aplica a cada página de cada lote. Utiliza los mejores motores de reconocimiento del mercado que tienen como base los algoritmos de inteligencia artificial y análisis multiniveles. Los análisis multiniveles (MDA) combinan varias herramientas de clasificación y motores de reconocimiento para analizar los datos a niveles diversos: página, tabla, celda, párrafo, imagen, línea, palabra, carácter... Los objetos se analizan no sólo de forma específica sino también de acuerdo al contexto en que se encuentran. Dicha tecnología se aplica al OCR (caracteres mecanografiados), al ICR (letras y caracteres manuscritos) y al OMR (todo tipo de marcas: “8”, “4”, círculos de selección...). A estas tecnologías se añade la lectura de los códigos de barras.

Durante el reconocimiento se detecta automáticamente el tipo de texto y se ponen en relación las áreas definidas en los modelos con los documentos digitalizados. Diccionarios internos y externos permiten mejorar la calidad de reconocimiento.


Figura 7: Resultado de la identificación y del reconocimiento

En la columna “Modelo” aparece el nombre del modelo que ha sido relacionado con cada página. En la columna “Caracteres ambiguos” se indica el porcentaje generado tras el proceso de reconocimiento, para cada página.
NB
: Un carácter ambiguo no es necesariamente un carácter mal reconocido.

La operación se considera acabada y un lote como reconocido cuando sus imágenes han sido reconocidas todas. El lote está listo para la etapa siguiente.

6) Validación y verificación

LARA utiliza varios modos de verificación que garantizan fiabilidad y consistencia a los datos producidos. Las etapas de verificación y validación transforman los datos brutos que resultan del proceso de reconocimiento en datos validados, exportables y utilizables en otras aplicaciones.

Según cómo se hayan determinado las reglas en el modelo, el proceso de validación corrige o completa automáticamente los valores de los campos, también puede verificar si el valor reconocido de un campo corresponde a ciertos criterios (ejemplo: verificar si una fecha corresponde a un período específico, si una palabra se encuentra en una lista, o si una llave se encuentra en una base de datos).

La verificación tiene meta de eliminar manualmente los caracteres cuyo reconocimiento queda ambiguo.

El orden en que se efectúan las dos operaciones se establece al crear el modelo. Se puede proceder a la verificación antes o después de la validación, o simultáneamente a las dos operaciones. También se puede prametrar el grado de ambigüedad de un carácter o de un campo para entrar en cuenta mayor o menor cantidad de datos a la verificación manual.

Durante la verificación, los campos cuyas propiedades acusan un porcentaje de ambigüedad de reconocimiento que rebase el límite parametrado se presentan al operador para que éste los corrija. Los campos se muestran uno a la vez de forma que la atención del operador se fije en el campo actual y no se pierda en la página entera.


Figura 8: Verificación
Los caracteres ambiguos aparecen de color rojo. El operador debe corregirlos para validar el valor del campo.

Las reglas de validación se ejecutan en secuencia. Si una de ellas fracasa la página se considera “no validada”. Al cabo del proceso, las páginas no validadas son presentadas una por una al operador para que éste las corrija. El lote se considera válido cuando todas las páginas han sido verificadas y validadas.

Mediante una interfaz de usuario muy intuitiva, el operador puede verificar a todo momento el avance del proceso de tratamiento del lote.


Figura 10: Resultado de la verificación y de la validación
En este ejemplo las reglas de validación han fracasado en la mayoría de las páginas,
lo que se señala con un banderín rojo en la columna “Reglas”.


Figura 10: Validación de las reglas
En esta página han fracasado tres reglas.
Para cada una se muestra un mensaje de error y se señalan los campos concernidos
para que el operador pueda identificar y eliminar la causa del error.

7) Exportación

La exportación es un proceso totalmente automático que sólo se aplica a lotes “validados”. LARA crea archivos con formato adecuado a las aplicaciones de destino. Esta última etapa asegura la integración de LARA con las demás soluciones. LARA genera y transfiere el archivo, cuyo tipo y formato (que puede ser XML) están especificados en las reglas, hacia la aplicación de destino.

8) Módulo de creación de formularios

El módulo FORM CREATOR de LARA permite crear formularios en blanco y negro que pueden ser leídos por ordenador con meta de imprimir, distribuir, completar, recolectar, digitalizar y por fin procesar dichos formularios gracias al módulo de reconocimiento. La creación de formularios es una etapa importante en el proceso de extracción automática de informaciones. En efecto, las demás etapas: digitalización, reconocimiento, verificación y exportación dependen del estado del formulario inicial y de su legibilidad por ordenador.

FORM CREATOR fue especialmente desarrollado para crear formularios legibles por ordenador. El programa integra una interfaz ergonómica e intuitiva así como herramientas para crear elementos estándar fáciles de uso que se encuentran muy a menudo en los formularios legibles por ordenador. FORM CREATOR crea los elementos de forma automática y con objeto de procesarlos ulteriormente. Además, el programa verifica cada formulario creado para garantizar el éxito de dicho procesamiento. Con FORM CREATOR puede usted crear formularios legibles por ordenador simple y rápidamente ya que el programa se encarga de las tareas más tediosas.


Figura 11: Módulo de creación de formularios FORM CREATOR

9) Desarrollos específicos

LARA Automation API es un SDK que permite controlar el proceso de tratamiento, desde la etapa de digitalización hasta la exportación. La estructura de la API respecta el estándar COM y puede utilizarse en las aplicaciones Visual Basic, C, C++ o en el entorno script.

La gama de productos SIATEL es el resultado de una estrecha colaboración entre usuarios y equipos de desarrollo. Puesto que la versión estándar de un software no responde siempre perfectamente a los requisitos de una organización, la compañía SIATEL pone a disposición de sus clientes, usuarios de LARA y demás productos de la gama, un equipo de ingenieros especializados en parametraje, desarrollo de aplicaciones específicas e integración con otros productos.

10) Software periféricos

LARA permite exportar datos recolectados y se integra con cualquier otro sistema existente.

LARA se integra también directamente con los software:

  • de GEDD GARGANTUA,
  • de workflow NORA
Acceder al capítulo ...

ImprimirRecibir una documentación