LARA est le module
de traitement automatique de documents de la gamme des logiciels
de gestion de l'information de SIATEL. Il inclut
entre autres les fonctionnalités couramment nommées LAD (lecture
automatique de documents) et RAD (reconnaissance
automatique de documents).
LARA est conçu pour capturer l'information
provenant de supports variés, la traiter de manière
automatique et l'exporter vers des bases de données
ou des systèmes de gestion. LARA apporte
une automatisation maximale dans le traitement des documents,
avec une qualité et une efficacité
déterminantes pour le succès et la rentabilité de
la solution. LARA est la solution idéale,
facile à mettre en œuvre, facile à utiliser, très
flexible, elle permet de devancer toutes les exigences
des utilisateurs en matière de sécurité
et d'adaptation.
LARA peut être utilisé de diverses
manières, et principalement :
- en solution indépendante pour la
capture automatisée de données provenant de formulaires
ou de documents divers mais structurés,
- comme module de lecture et d'indexation
de documents destinés à être conservés
et stockés dans le logiciel de GEDD GARGANTUA,
ou traités dans un processus de workflow du module NORA.
LARA traite les documents dactylographiés
(OCR), les caractères et les chiffres
manuscrits (ICR), les coches et les marques
(OMR), les différents codes barres et
les codes CMC7. Les domaines d'application sont innombrables
: parmi les principaux, citons le traitement des factures et
des formulaires de tous types, les bordereaux de dépôt
bancaires, les questionnaires, les fiches de travail…
Utilisé en solution indépendante, LARA permet
la numérisation par lots homogènes ou hétérogènes
des documents papier ainsi que la capture de tous types de supports électroniques
(fax, fichiers bureautiques…), la manipulation des fichiers
en vue de l'amélioration de la qualité des images,
la reconnaissance et la vérification des données
selon diverses méthodes, puis leur exportation vers d'autres
logiciels en vue d'une exploitation tierce.
Utilisé comme module additionnel
au logiciel de GARGANTUA, LARA permet l'automatisation
de l'indexation des documents, en mode de traitement individuel
ou par lot.
Dans sa version standard, LARA dispose
également d'un module de création de formulaires,
lequel permet leur optimisation en vue des futurs traitements
qui leur seront appliqués.
Quelque soit le type d'organisation, LARA améliore
considérablement le traitement des documents, en
rendant les contenus rapidement disponibles. Il en résulte
une amélioration de la qualité de service,
une meilleure compétitivité, un retour sur
investissement rapide grâce aux gains de productivité,
la libération de ressources pour des fonctions à plus
forte valeur ajoutée et l'optimisation de la sécurité.
LARA est composé de différents
sous ensembles couvrant la totalité des fonctionnalités
nécessaires à
la mise en œuvre rapide et simple d'une solution performante
de capture, de traitement et de gestion automatique de documents.
1) La
conception de modèles de traitement
Pour les formulaires, LARA dispose
d'un module dédié à leur conception ; les
formulaires
étant un cas particulier, ce module spécifique
est présenté
au paragraphe 8.
LARA dispose d'un concepteur générateur
de modèles qui de manière simple, à travers
un assistant, permet de définir les règles
selon lesquelles seront extraites les informations contenues
dans les documents ou les formulaires. Chaque type de document,
pour pouvoir être traité par LARA,
doit avoir un modèle associé. Une base de modèles
se constitue donc dans le temps avec un enrichissement progressif.
Un modèle est composé de blocs de données
ainsi que de règles automatiques de validation. Les blocs
sont des éléments importants d'un modèle
puisqu'ils sont utilisés pour différencier les éléments à reconnaître
de ceux à
ne pas reconnaître, pour sélectionner les marques
de référence qui permettent d’associer un
document à un modèle, ou pour repositionner l’image
afin d’obtenir un meilleur taux de reconnaissance.
Figure 1 : L’éditeur des modèles
de LARA
Exemple :
la figure ci-dessus montre une étape de la définition
des blocs d'un modèle. Les zones encadrées en rouge
indiquent ce qui est considéré comme image donc à ne
pas reconnaître, en vert les blocs de texte à lire,
en orange les blocs de cases
à cocher (blocs 1 à 3). Le bloc 4 entourant les
blocs 1
à 3 indique qu'une règle y a été associée.
Parmi les principales propriétés
des blocs, citons les types de blocs (texte, coche, marque, code
barre, image), les types de lettres (majuscule, minuscule), les
types de chiffres ou de données (exemple :
un numéro de téléphone doit comporter 10
chiffres et commencer par zéro), les dictionnaires
et les listes, les options de reconnaissance et les options de
vérification. Ces propriétés permettent,
en particulier, d’améliorer l’extraction des
informations des blocs de données, et, en général,
d’optimiser le processus de traitement.
Dans les modèles, on peut définir des règles
automatiques de validation. Une règle de validation est
une suite de conditions que des données lues doivent respecter
(exemple : la lecture
d'un jour doit donner un résultat compris entre 0 et 31
sauf si le mois est 02, etc.). On définit des règles
pour :
- vérifier le format des données reconnues et
les normaliser si nécessaire (exemple :
une règle peut être établie pour vérifier
et normaliser les dates),
- comparer les résultats de la reconnaissance avec
le contenu de bases de données ou des listes des valeurs
autorisées,
- vérifier les rapports entre plusieurs blocs (exemples :
vérifier qu'une valeur numérique en chiffres
correspond
à une même valeur numérique en toutes lettres,
vérifier si les valeurs ont été additionnées
correctement…),
- vérifier des résultats d'opérations
arithmétiques ou de fusion de champs, …

Figure 2: Définition de règles de
validation sur un modèle
Pour simplifier l’organisation du processus
d’extraction automatique des informations des formulaires, LARA travaille
au niveau de lots. Un lot se compose de pages, chacune représentant
l’image numérisée d’un document complété,
et de modèles. Un modèle décrit une page
et contient les informations nécessaires à l’identification
et
à la reconnaissance du contenu de celle-ci. Dans un lot
il peut y avoir jusqu'à 99 modèles, donc, autant
de types de documents différents.

Figure 3 : Définition de la composition
d’un lot
Dans cet exemple, le lot est composé de
2 modèles : un modèle recto et un modèle
verso.
Hormis les modèles associés,
pour un lot on définit aussi les règles d’exportation
des données recueillies. On peut exporter les données
sous divers formats texte simple comme XML par exemple, ou à travers
des objets OLE, vers des applications tierces, en vue d’une
utilisation ultérieure.
2) Architecture
et administration de la production
Le processus de traitement effectif des documents
comprend plusieurs étapes successives : numérisation,
reconnaissance, vérification, validation et exportation
des données en vue de leur utilisation ultérieure.
Chacune des étapes peut
être réalisée par le même opérateur
sur un même poste, ou par des opérateurs différents
sur des postes de travail distincts. Elles peuvent également être
regroupées et séquencées.
LARA est un produit à la fois très
flexible et totalement extensible. Si, par exemple, l’étape
de reconnaissance demande une puissance de calcul importante
ou prend beaucoup de temps, il est possible de la paralléliser
sur plusieurs postes tous chargés de cette opération.
Si on constate que la vérification des lots est trop
lente, de la même manière, on peut ajouter des
postes supplémentaires affectés à la
vérification. L'architecture devra donc être
adaptée au cas par cas en fonction de critères
variés tels que quantités, impératifs
de temps, etc.
Le poste d’administration est utilisé pour
paramétrer le processus de traitement, définir
les modèles, définir les lots et éventuellement
créer les formulaires. Ce poste permet également
de surveiller le processus de traitement.

Figure 4 : Synoptique du processus de traitement
Dans un cas général, plusieurs types
de postes de travail peuvent être prévus :
- Le poste de numérisation est le point
d’entrée dans le processus de traitement. Il produit
des lots contenant des documents numérisés.
- Le poste de reconnaissance reçoit
les lots numérisés. A travers une opération
automatique, il identifie (par association d'un modèle
de reconnaissance à chaque image) et reconnaît
chaque image du lot (par application du modèle de reconnaissance
sélectionné sur l’image). L’intervention
d’un opérateur est uniquement nécessaire
dans le cas très peu probable d’une erreur d’identification
d’une page, laquelle est alors positionnée dans
une corbeille de post traitement.
En sortie, les lots sont identifiés et reconnus.
- Le poste de validation et de vérification
reçoit pour traitement les lots identifiés et
reconnus. La validation est un double processus :
- automatique d'abord, il consiste à contrôler
les données recueillies à l’aide
des règles de validation et par utilisation
de bases de données, de dictionnaires ou autres,
- manuel ensuite, pour ce qui reste incertain.
Une procédure de contrôle visuel des caractères
douteux et des caractères explicitement marqués
comme devant être vérifiés est alors
appliquée. L’opérateur, aussi appelé
vidéo-codeur, corrige les éventuelles erreurs
de reconnaissance. Là aussi, les règles de
validation facilitent la tâche de vérification
manuelle et peuvent également être utilisées
pour modifier les résultats de la reconnaissance.
En sortie, les lots sont validés.
- Le poste d’exportation reçoit
des lots validés et, selon les règles prédéfinies,
exporte les données. La procédure d’exportation
est automatisée et l’intervention d’un opérateur
n’est pas nécessaire
3) La
capture
LARA utilise les modules de
numérisation de GARGANTUA et de ce fait
gère directement, à
travers ses propres drivers et sans additif de modules externes,
un certain nombre de scanners, des plus simples aux plus performants.
Ceci permet l'intégration directe et instantanée
des documents numérisés dans l'espace de travail
; aucune reprise n'est nécessaire. Pour les scanners ne
disposant pas de driver interne, le mode Twain est également
disponible.
Pour faciliter l'utilisation des périphériques
de numérisation, il est possible de mémoriser les
paramètres de luminosité, contraste, taux de compression,
etc. Ceci permet de rappeler directement des réglages
adaptés et optimisés aux types et qualités
de papier à saisir, afin d'éviter de rétablir
des ajustements parfois fastidieux. Des fonctions de détection
et d'ajustement automatique des seuils de réglages
à chaque document sont également disponibles, en
cas de numérisation de papiers totalement hétérogènes.

Figure 5 : Le paramétrage en ligne d'un
scanner
Un document numérisé est stocké sous
un type défini de fichier et compressé selon le
mode et le format le mieux adapté à la nature du
document. Les principaux compresseurs tels que CCITT G4, JPEG,
GIF, PNG, etc., sont disponibles en standard dans LARA pour les
saisies d'images noir et blanc, couleur ou niveaux de gris. Une
fonction, particulière au produit, permet de changer le
type de format de fichier ainsi que le type de compression.
Quelque soit le type de saisie, la décompression
est instantanée et un module de contrôle de la qualité
de numérisation permet de « feuilleter » page à
page le contenu des lots.

Figure 6 : Les options disponibles pour deux types
de formats de fichiers avec les compresseurs associés
Au delà de la numérisation, diverses
fonctions dites de traitement de l'image peuvent être appliquées
afin d'améliorer la qualité et la lisibilité de
chaque document. LARA dispose d'une très large gamme de
ces outils parmi lesquels les fonctions de redressement automatique,
rotation par pas de 90° ou par sélection d'angle,
détection de l'orientation des pages, offset et repositionnement,
nettoyage, détachage, détection des seuils de contraste,
etc.
4) L'identification
L'identification est la première étape
du traitement : c’est un processus automatique qui s’exécute
sur chaque page de chaque lot. Au sein d’un lot de documents
variés la nature de chacun est déterminée
grâce à
des algorithmes de reconnaissance de forme. Ainsi identifiés,
les documents sont prêts à recevoir un traitement
de reconnaissance adapté à leur structure. Cette
fonction, généralement appelée RAD, permet
d'identifier un nombre illimité de formats ou de présentations,
avec un taux de réussite proche de 100%.
Exemples :
- Traitement des formulaires multi-pages : lors
de la numérisation, un formulaire génèrera
plusieurs fichiers qui ne seront pas systématiquement
dans un ordre défini (en cas de positionnement à l'envers
dans le scanner, par exemple). Il est alors nécessaire
de repositionner ces fichiers afin que les données
contenues puissent être exportées dans le bon
ordre.
- Traitement de factures fournisseurs : compte
tenu de la diversité des modèles il est nécessaire
de les identifier avant la reconnaissance. On peut éventuellement
y appliquer des fonctions de redressement ou de rotation,
afin de pouvoir en extraire les données souhaitées
: code fournisseur, numéro de facture, date, nature
des fournitures, montants et autres références,
par exemple.
Pour un lot, l’opération est considérée
comme terminée quand toutes les images ont été identifiées.
Les éventuelles erreurs sont présentées à
l’opérateur pour correction.
5) La
reconnaissance
La reconnaissance est l'étape principale
du traitement : c’est un processus automatique qui s’exécute
sur chaque page identifiée de chaque lot. Elle utilise
les meilleurs moteurs de reconnaissance du marché basés
sur les algorithmes d'intelligence artificielle et d'analyse
multi- niveaux. Les analyses multi-niveaux (MDA) combinent une
variété de classificateurs et de moteurs de reconnaissance
pour analyser les données à
des niveaux multiples : page, tableau, cellule, paragraphe, image,
ligne, mot, caractère… Les objets sont analysés
non seulement de manière spécifique, mais aussi
vis à vis du contexte dans lequel ils se trouvent. Cette
technologie est mise en œuvre pour l'OCR (caractères
dactylographiés), l'ICR (lettres et caractères
manuscrits), et l'OMR (coches, marques, cerclage de sélection
ou de nombre). A ceci s'ajoute la lecture de codes barres.
La reconnaissance s'effectue par détection
automatique du type de texte et mise en correspondance des zones établies
dans les modèles avec les documents numérisés.
Des dictionnaires internes et externes permettent d'améliorer
la qualité de la reconnaissance.
Figure 7 : Résultat de l’identification
et de la reconnaissance
Dans la colonne « Modèle » on
lit le nom du modèle qui a été associé à
chaque page, dans la colonne « Caractères incertains » est
indiqué le pourcentage des caractères douteux suite
au processus de reconnaissance. Note : un caractère
douteux n'est pas obligatoirement un caractère mal reconnu.
Pour un lot, l’opération est terminé
quand toutes les images ont été reconnues. Le lot
est alors considéré comme reconnu et peut être
pris en compte par l’étape suivante.
6) Validation
et vérification
LARA utilise différents
modes de vérification qui permettent de garantir la fiabilité et
la cohérence des données produites. Les étapes
de vérification et de validation ont pour but de transformer
les données brutes issues du processus de reconnaissance
en données validées, exportables et exploitables
dans des applications autres.
La validation, selon la définition des
règles dans le modèle, corrige ou complète
automatiquement les valeurs des champs. Elle peut aussi vérifier
que la valeur reconnue d’un champ correspond à certains
critères (exemple :
une date est bien dans une plage de dates, un mot est dans une
liste de mots, une clé se trouve dans une base de données).
L’opération de vérification consiste à éliminer
manuellement les caractères dont la reconnaissance est
restée incertaine.
L’ordre d’exécution des deux
opérations est
établi dans la définition du modèle. La
vérification peut être exécutée avant,
après ou au même temps que la validation. On peut
aussi paramétrer le degré
d’incertitude accepté pour la reconnaissance d’un
caractère ou d'un champ afin que celui-ci soit pris en
compte par l’opération manuelle de vérification.
Pendant l’étape de vérification,
les champs dont les propriétés montrent un taux
d’incertitude de reconnaissance dépassant la limite établie
sont présentés
à l’opérateur pour être validés
ou corrigés. Ils sont affichés un par un, de manière à ce
que l’attention du vidéo-codeur soit concentrée
uniquement sur le champ courant et non pas sur toute la page.

Figure 8 : Vérification
Les caractères incertains sont indiqués en
rouge ; l’opérateur doit les corriger pour valider
la valeur du champ.
Pendant l’étape de validation,
les règles de validation sont exécutées
en séquence. Si l'une d’elles échoue, la
page est marquée comme « non validée ».
A la fin du processus, les pages non validées sont présentées
une par une a l’opérateur pour être corrigées.
Le lot est considéré comme valide quand toutes
les pages sont vérifiées et validées.
A travers une interface utilisateur très
intuitive, l’opérateur peut vérifier à tout
instant, l’état d’avancement du processus
de traitement du lot.
Figure 9 : Résultat de la vérification
et de la validation
Dans cet exemple, les règles
de validation ont échoué sur la majorité des
pages,
fait signalé par le drapeau rouge dans la colonne « Règles
».

Figure 10 : Validation des règles
Trois règles ont échoué sur
cette page : pour chacune, un message d’erreur est affiché et
les champs impliqués sont marqués afin que l’opérateur
puisse identifier et éliminer la cause de l’erreur.
7) Exportation
L’exportation, est un processus totalement
automatique qui ne s'effectue que sur les lots "validés".
LARA crée des fichiers compatibles avec la plupart des
formats exigés par les applications de destination. Cette
dernière étape assure de fait l'interfaçage
avec les autres solutions. Le fichier, dont le type et le format
(pouvant être du XML) sont spécifiés dans
les règles, est généré et transféré
vers l'application destinataire.
8) Le
module de création de formulaires
La conception des formulaires est une étape
importante du processus d’extraction automatique des informations
contenues dans ceux ci, dans la mesure où toutes les autres étapes
(numérisation, reconnaissance, vérification et
exportation) dépendent de l'état du document initial
et de sa "lisibilité"
lors du traitement machine.
Le module FORM CREATOR de LARA permet la création
de formulaires destinés à être lus et traités
par des systèmes automatiques. Ces formulaires seront
ensuite imprimés, distribués, remplis, puis collectés,
numérisés et finalement traités par les
différents modules du logiciel.
Le module FORM CREATOR est doté d'une
interface conviviale, intuitive, simple d'emploi ainsi que d'outils
de création d'éléments standards fréquemment
rencontrés sur les formulaires destinés
à être interprétés en machine. Ces éléments
sont conçus et créés dès le départ
en prévision de leur traitement. Pour cela, le programme
vérifie et ajuste chaque zone séparément
(taille des cases, espacement….) et le formulaire final
dans son intégralité afin de garantir le succès
de son traitement par l'ordinateur. Il est ainsi possible de
créer des formulaires de façon simple et rapide,
puisque le programme se charge des tâches les plus fastidieuses.
Figure 11 : Module de création de formulaires
FORM CREATOR
9) Développements
spécifiques
LARA Automation API est un
SDK qui offre la possibilité de contrôler le processus
de traitement, depuis l’étape de numérisation
jusqu'à l’exportation. L’API est construit
en respectant le standard COM et peut être utilisé dans
des applications Visual Basic, C, C++ ou dans les environnements
de type script.
La gamme de produits SIATEL est
le résultat d'une
étroite coopération entre les utilisateurs et les équipes
de développement. Consciente qu'un logiciel ne répond
pas toujours en l'état aux besoins exacts, SIATEL met à la
disposition de ses clients, utilisateurs de LARA, et des autres
produits de la gamme, une équipe d'ingénieurs spécialisés
dans le paramétrage, le développement d'applications
spécifiques et l'interconnexion avec d'autres produits.
10) Logiciels
périphériques
LARA permet d'exporter les données
recueillies et de s'intégrer dans tout autre système
existant.
LARA possède également des
interfaces directes vers les logiciels :
- de GED GARGANTUA
- de workflow NORA