LARA es el módulo
de tratamiento automático de documentos de
la gama de software de gestión de la información
de SIATEL. Incluye entre otras las funciones comúnmente
llamadas LAD (Lectura Automática
de Documentos) y RAD (Reconocimiento Automático
de Documentos).
LARA ha sido desarrollado
para capturar la información que proviene
de diversas fuentes, tratarla de forma automática
y exportarla hacia bases de datos o sistemas de gestión. LARA automatiza
a lo máximo el tratamiento de documentos con
una eficiencia y una calidad que le aseguran éxito
y rentabilidad. LARA es la solución
ideal: fácil de poner en práctica,
fácil de uso, muy flexible; rebasa todas las
exigencias de los usuarios en materia de seguridad
y adaptación.
LARA puede utilizarse
de diversos modos y principalmente:
- como solución autónoma: captura
datos que provienen de formularios y documentos
de diferentes tipos pero iterativos;
- como módulo de lectura y registro de documentos
que luego se almacenan en un software de GEDD como
Gargantua, o se integran en un proceso de workflow
con un software como Nora.
LARA procesa documentos
mecanografiados (OCR), caracteres y números
manuscritos (ICR), marcas: “8”, “4”,
etc. (OMR), diferentes códigos de barras y
códigos CMC7. Los ámbitos de aplicación
son numerosos. Entre los principales podemos mencionar
la gestión de facturas y de formularios de
todo tipo, como por ejemplo los que se usan para
depósitos bancarios, cuestionarios, nóminas...
LARA, solución
autónoma, permite digitalizar lotes de documentos
de papel homogéneos y heterogéneos
y capturar todo tipo de documentos electrónicos
(faxes, archivos Office...), tratar archivos para
mejorar la calidad de las imágenes, reconocer
y verificar datos gracias a diversos métodos,
para luego exportarlos y utilizarlos en otros software.
En su versión estándar, LARA dispone
de un módulo de creación de formularios
que proporciona óptima calidad a éstos
y por consiguiente a su futuro procesamiento.
En cualquier tipo de organización, LARA mejora
considerablemente el tratamiento de los documentos
poniendo su contenido a disposición inmediata.
Resultados: mejor calidad de servicio, más
alta competitividad, inversión recuperada
rápidamente gracias un aumento de la productividad,
seguridad óptima. Con LARA se liberan recursos
para las tareas de más alto valor añadido.
LARA, se compone
de diferentes módulos que contienen todas
las funcionalidades necesarias para poner en marcha
simple y rápidamente una solución eficiente
de captura, tratamiento y gestión automática
de documentos.
1) Creación
de modelos de tratamiento
LARA dispone de
un módulo dedicado a la creación de
formularios. Por ser un caso muy específico
se describirá más adelante. Véase párrafo
8.
El módulo de creación
de modelos de LARA permite determinar,
de forma sencilla gracias a un asistente, las reglas
que rigen la extracción de las informaciones
contenidas en los documentos o formularios. Para
que LARA pueda procesarlos, todos
los tipos de documentos deben ser vinculados cáda
uno con un modelo. Así se constituye y se
enriquece poco a poco una base de modelos.
Un modelo se constituye de bloques
de datos y de reglas automáticas de validación.
Los bloques son elementos importantes de un modelo
ya que gracias a ellos se identifican las áreas
que se han de reconocer y las demás; se señalan
las marcas que permiten vincular un documento con
un modelo y se endereza la imagen para obtener la
mejor taza de reconocimiento.
Figura 1: Editor de modelos de LARA
Ejemplo:
Esta figura muestra la etapa en que se definen los
bloques de un modelo. Los rectángulos rojos
indican las áreas consideradas como imagen
(que no se han de reconocer), los bloques verdes
contienen el texto que debe ser leído, los
bloques naranjos contienen las casillas de marcar
(bloques 1, 2 y 3). El bloque 4 que reúne
los bloques 1, 2 y 3 indica la presencia de una regla.
Entre las principales propiedades
de los bloques se pueden nombrar: los tipos de bloques
(texto, marca, código
de barras, imagen), los tipos de letras (mayúscula,
minúscula), los tipos de cifras o datos
(ejemplo:
un número de teléfono debe componerse
de n cifras y empezar con el indicativo n’),
los diccionarios y listas, las opciones de reconocimiento
y de verificación. Estas propiedades permiten
en particular mejorar la extracción de las
informaciones de los bloques de datos, y optimizar
el proceso de tratamiento.
En los modelos se pueden determinar
reglas automáticas de validación. Una
regla de validación es una serie de condiciones
que los datos leídos han de satisfacer (ejemplo:
el resultado de la lectura de un día debe
estar comprendido entre 1 y 31, salvo si el mes es
igual a 02, etc.). Se determinan reglas para:
- verificar el formato de los datos reconocidos
y normalizarlos si es necesario (ejemplo:
se puede establecer una regla para verificar y
normalizar las fechas),
- comparar el resultado del reconocimiento con
las listas y bases de datos de valores autorizados,
- verificar las relaciones entre varios bloques
(ejemplo:
verificar que un valor numérico en cifras
corresponde al mismo con todas sus letras, verificar
si la suma de dos valores es correcta...)
- verificar los resultados de operaciones aritméticas
o de fusión de campos...

Figura 2: Determinar reglas de validación
de un modelo
Para simplificar la organización
del proceso de extracción automática
de informaciones de los formularios, LARA procede
por lotes. Un lote se compone de modelos y de páginas:
cada una representa la imagen digitalizada de un
documento completado. Un modelo caracteriza una página
y contiene las informaciones necesarias para identificar
y reconocer su contenido. En un lote pueden haber
hasta 99 modelos, es decir 99 tipos de documentos
diferentes.

Figura 3: Determinar la composición
de un lote
En
este ejemplo el lote contiene
dos modelos : un modelo Frente
y un modelo Dorso.
Para cada lote se determinan no
sólo los modelos, sino también las
reglas de exportación de los datos obtenidos.
Es posible exportar los datos en diversos formatos
de texto simple como XML, por ejemplo, o via objetos
OLE, hacia aplicaciones externas en las que se utilizarán
ulteriormente.
2) Arquitectura
y administración de la producción
El proceso de tratamiento efectivo
de documentos comprende varias etapas sucesivas:
digitalización, reconocimiento, verificación,
validación y exportación de los datos
para su utilización ulterior. Dichas etapas
pueden ser realizadas por el mismo operador con el
mismo ordenador, o por operadores diferentes cada
uno con su ordenador, también se pueden agrupar
y secuenciar.
LARA es un producto
a la vez flexible y totalmente extensible. Si, por
ejemplo, la etapa de reconocimiento requiere una
potencia de procesamiento importante o demora mucho
tiempo, es posible repartirla entre varios ordenadores,
todos dedicados a dicha operación. Si la verificación
de los lotes se revela demasiado lenta, es posible
agregar ordenadores adicionales dedicados a ella.
Debe adaptarse la arquitectura al caso presente según
criterios como cantidades, imperativos de plazos,
etc.
El ordenador de administración
se utiliza para parametrar el proceso de tratamiento,
determinar los modelos, los lotes y eventualmente
crear los formularios. Desde el mismo ordenador se
puede vigilar el proceso de tratamiento.

Figura 4 : Diagrama sinóptico del proceso
de tratamiento
Por lo general se prevén varios
tipos de ordenadores:
- Máquina de digitalización: punto
de partida del proceso de tratamiento. Genera lotes
que contienen documentos digitalizados.
- Máquina de reconocimiento: recibe los
lotes digitalizados. En una operación automática
identifica (vinculando un modelo de reconocimiento
con cada imagen) y reconoce las imágenes
del lote (aplicando el modelo de reconocimiento
que corresponde a cada imagen). Es necesario que
intervenga un operador solo en el caso poco probable
de que surja un error al identificar una página.
Si asi fuera, ésta sería colocada
en una cesta de postratamiento.
Al cabo de esta etapa, los son están identificados
y reconocidos.
- La máquina de verificación y validación:
recibe los lotes identificados y reconocidos. El
tratamiento de validación es un proceso
doble:
- automático
en primer lugar,
consiste en controlar
los datos reconocidos,
gracias a las reglas
de validación
relacionadas con
bases de datos, diccionarios,
etc.
- luego manual, para corregir discrepancias:
los caracteres ambiguos están expresamente
marcados para que el operador proceda a un
control visual. El operador corrige los errores
de eventuales de reconocimiento. Otra vez,
las reglas de validación facilitan la
tarea de verificación manual y pueden
utilizarse para modificar los resultados del
reconocimiento.
Al cabo de esta etapa, los lotes quedan validados.
- La máquina de exportación: recibe
los lotes validados y exporta los datos según
las reglas predeterminadas. El proceso de exportación
es automático. No es preciso que intervenga
un operador.
3) Captura
LARA utiliza los
módulos de digitalización de GARGANTUA lo
que le permite manejar numerosos escáneres,
tanto básicos como muy poderosos, gracias
a sus propios drivers y sin agregar ningún
módulo externo. De este modo, los documentos
se integran directa e instantáneamente en
las tareas, en vez de proceder en varias etapas.
El modo Twain también está a disposición
para aquellos escáneres que no tengan driver
interno.
Para facilitar la utilización
de los periféricos de digitalización,
es posible guardar los parámetros de brillo,
contraste, compresión, etc. Esto permite recuperar
directamente parámetros perfectamente adaptados
al tipo y a la calidad del papel escaneado, sin tener
que especificarlos cada vez que sea necesario. También
existen funciones de detección y de ajuste
automático de umbrales de parametraje que
se pueden aplicar a cada documento, para digitalizar
papeles totalmente heterogéneos.

Figura 5: Parametraje en línea de un
escáner
Cada documento digitalizado se almacena
con un tipo de archivo específico y se comprime
según el modo y el formato que correspondan
mejor al tipo documento. LARA dispone
en estándar de los principales formatos de
compresión como CCITT G4, JPEG, GIF, PNG,
etc., para integrar las imágenes en blanco
y negro, color o escalas de gris. Con una función
específica se cambia el formato de archivo
y el tipo de compresión.
Cualquiera que sea el modo de integración
de los documentos, éstos se descomprimen de
forma instantánea. Luego un módulo
de control de la calidad de digitalización
permite “hojear” el contenido de los
lotes, página por página.

Figura 6: Opciones disponibles para dos tipos
de formatos de archivos, con sus opciones de compresión.
Además de la digitalización,
se pueden aplicar diversas funciones dichas de “tratamiento
de imagen” para incrementar la calidad y la
legibilidad de los documentos. LARA dispone
de numerosas herramientas de ese tipo entre las cuales
funciones para enderezar automáticamente,
girar por múltiples de 90° o por selección
del ángulo, detectar la orientación
de las páginas, offset, reposicionar, limpiar,
desmanchar, controlar el contraste, etc.
4) Identificación
La identificación es la primera
etapa del tratamiento: es un proceso automático
que se aplica a cada página de cada lote.
En un lote de documentos variados el tipo de cada
uno se determina mediante algoritmos de reconocimiento
de forma. Se puede entonces aplicar a los documentos
un tratamiento de reconocimiento adaptado a su estructura.
Esa función generalmente comúnmente
llamada RAD permite identificar una cantidad infinita
de formatos o de estructuras con una tasa de éxito
próxima del 100%.
Ejemplos :
- Tratamiento de formularios
multipáginas: cuando se digitaliza
un formulario, éste genera varios archivos
que no se colocan sistemáticamente en
un orden definido (si por ejemplo uno formulario
ha sido colocado al revés en el escáner).
Es necesario entonces reposicionar los archivos
para poder exportar los datos que contienen en
el orden debido.
- Tratamiento de facturas
de proveedores: ya que puede haber una
multitud de modelos es preciso identificarlas
antes de pasar al reconocimiento. Es posible
aplicarles funciones para enderezar, girar, extraer
los datos relevantes: código del proveedor,
número de factura, fecha, tipo de mercancía,
importes y otras referencias, por ejemplo.
En un lote, la operación se considera acabada
cuando todas las imágenes han sido identificadas.
Se presentan al operador los errores eventuales para
que éste pueda corregirlos.
5) Reconocimiento
El reconocimiento es la etapa principal
del tratamiento: se trata de un proceso automático
que se aplica a cada página de cada lote.
Utiliza los mejores motores de reconocimiento del
mercado que tienen como base los algoritmos de inteligencia
artificial y análisis multiniveles. Los análisis
multiniveles (MDA) combinan varias herramientas de
clasificación y motores de reconocimiento
para analizar los datos a niveles diversos: página,
tabla, celda, párrafo, imagen, línea,
palabra, carácter... Los objetos se analizan
no sólo de forma específica sino también
de acuerdo al contexto en que se encuentran. Dicha
tecnología se aplica al OCR (caracteres mecanografiados),
al ICR (letras y caracteres manuscritos) y al OMR
(todo tipo de marcas: “8”, “4”,
círculos de selección...). A estas
tecnologías se añade la lectura de
los códigos de barras.
Durante el reconocimiento se detecta
automáticamente el tipo de texto y se ponen
en relación las áreas definidas en
los modelos con los documentos digitalizados. Diccionarios
internos y externos permiten mejorar la calidad de
reconocimiento.
Figura 7: Resultado de la identificación
y del reconocimiento
En la columna “Modelo” aparece
el nombre del modelo que ha sido relacionado con
cada página. En la columna “Caracteres
ambiguos” se indica el porcentaje generado
tras el proceso de reconocimiento, para cada página.
NB: Un carácter ambiguo no es necesariamente
un carácter mal reconocido.
La operación se considera
acabada y un lote como reconocido cuando sus imágenes
han sido reconocidas todas. El lote está listo
para la etapa siguiente.
6) Validación
y verificación
LARA utiliza varios
modos de verificación que garantizan fiabilidad
y consistencia a los datos producidos. Las etapas
de verificación y validación transforman
los datos brutos que resultan del proceso de reconocimiento
en datos validados, exportables y utilizables en
otras aplicaciones.
Según cómo se hayan
determinado las reglas en el modelo, el proceso de
validación corrige o completa automáticamente
los valores de los campos, también puede verificar
si el valor reconocido de un campo corresponde a
ciertos criterios (ejemplo:
verificar si una fecha corresponde a un período
específico, si una palabra se encuentra en
una lista, o si una llave se encuentra en una base
de datos).
La verificación tiene meta
de eliminar manualmente los caracteres cuyo reconocimiento
queda ambiguo.
El orden en que se efectúan
las dos operaciones se establece al crear el modelo.
Se puede proceder a la verificación antes
o después de la validación, o simultáneamente
a las dos operaciones. También se puede prametrar
el grado de ambigüedad de un carácter
o de un campo para entrar en cuenta mayor o menor
cantidad de datos a la verificación manual.
Durante la verificación,
los campos cuyas propiedades acusan un porcentaje
de ambigüedad de reconocimiento que rebase el
límite parametrado se presentan al operador
para que éste los corrija. Los campos se muestran
uno a la vez de forma que la atención del
operador se fije en el campo actual y no se pierda
en la página entera.

Figura 8: Verificación
Los caracteres ambiguos aparecen de color rojo.
El operador debe corregirlos para validar el
valor del campo.
Las reglas de validación
se ejecutan en secuencia. Si una de ellas fracasa
la página se considera “no validada”.
Al cabo del proceso, las páginas no validadas
son presentadas una por una al operador para que éste
las corrija. El lote se considera válido cuando
todas las páginas han sido verificadas y validadas.
Mediante una interfaz de usuario
muy intuitiva, el operador puede verificar a todo
momento el avance del proceso de tratamiento del
lote.
Figura 10: Resultado de la verificación
y de la validación
En
este ejemplo las reglas de
validación han fracasado
en la mayoría de las
páginas,
lo que se señala
con un banderín
rojo en la columna “Reglas”.

Figura 10: Validación de las reglas
En esta página han
fracasado tres reglas.
Para cada una se muestra un mensaje de error
y se señalan los campos concernidos
para que el operador pueda identificar y eliminar
la causa del error.
7) Exportación
La exportación es un proceso
totalmente automático que sólo se aplica
a lotes “validados”. LARA crea
archivos con formato adecuado a las aplicaciones
de destino. Esta última etapa asegura la integración
de LARA con las demás soluciones. LARA genera
y transfiere el archivo, cuyo tipo y formato (que
puede ser XML) están especificados en las
reglas, hacia la aplicación de destino.
8) Módulo
de creación de formularios
El módulo FORM CREATOR de LARA permite
crear formularios en blanco y negro que pueden ser
leídos por ordenador con meta de imprimir,
distribuir, completar, recolectar, digitalizar y
por fin procesar dichos formularios gracias al módulo
de reconocimiento. La creación de formularios
es una etapa importante en el proceso de extracción
automática de informaciones. En efecto, las
demás etapas: digitalización, reconocimiento,
verificación y exportación dependen
del estado del formulario inicial y de su legibilidad
por ordenador.
FORM CREATOR fue especialmente desarrollado
para crear formularios legibles por ordenador. El
programa integra una interfaz ergonómica e
intuitiva así como herramientas para crear
elementos estándar fáciles de uso que
se encuentran muy a menudo en los formularios legibles
por ordenador. FORM CREATOR crea los elementos de
forma automática y con objeto de procesarlos
ulteriormente. Además, el programa verifica
cada formulario creado para garantizar el éxito
de dicho procesamiento. Con FORM CREATOR puede usted
crear formularios legibles por ordenador simple y
rápidamente ya que el programa se encarga
de las tareas más tediosas.
Figura 11: Módulo de creación
de formularios FORM CREATOR
9) Desarrollos
específicos
LARA Automation
API es un SDK que permite controlar el proceso de
tratamiento, desde la etapa de digitalización
hasta la exportación. La estructura de la
API respecta el estándar COM y puede utilizarse
en las aplicaciones Visual Basic, C, C++ o en el
entorno script.
La gama de productos SIATEL es
el resultado de una estrecha colaboración
entre usuarios y equipos de desarrollo. Puesto que
la versión estándar de un software
no responde siempre perfectamente a los requisitos
de una organización, la compañía SIATEL pone
a disposición de sus clientes, usuarios de LARA y
demás productos de la gama, un equipo de ingenieros
especializados en parametraje, desarrollo de aplicaciones
específicas e integración con otros
productos.
10) Software
periféricos
LARA permite exportar
datos recolectados y se integra con cualquier otro
sistema existente.
LARA se integra también
directamente con los software:
- de GEDD GARGANTUA,
- de workflow NORA