LAD/RAD : LARA

LARA est le module de traitement automatique de documents de la gamme des logiciels de gestion de l'information de SIATEL. Il inclut entre autres les fonctionnalités couramment nommées LAD (lecture automatique de documents) et RAD (reconnaissance automatique de documents).

LARA est conçu pour capturer l'information provenant de supports variés, la traiter de manière automatique et l'exporter vers des bases de données ou des systèmes de gestion. LARA apporte une automatisation maximale dans le traitement des documents, avec une qualité et une efficacité déterminantes pour le succès et la rentabilité de la solution. LARA est la solution idéale, facile à mettre en œuvre, facile à utiliser, très flexible, elle permet de devancer toutes les exigences des utilisateurs en matière de sécurité et d'adaptation.

LARA peut être utilisé de diverses manières, et principalement :

  • en solution indépendante pour la capture automatisée de données provenant de formulaires ou de documents divers mais structurés,
  • comme module de lecture et d'indexation de documents destinés à être conservés et stockés dans le logiciel de GEDD GARGANTUA, ou traités dans un processus de workflow du module NORA.

LARA traite les documents dactylographiés (OCR), les caractères et les chiffres manuscrits (ICR), les coches et les marques (OMR), les différents codes barres et les codes CMC7. Les domaines d'application sont innombrables : parmi les principaux, citons le traitement des factures et des formulaires de tous types, les bordereaux de dépôt bancaires, les questionnaires, les fiches de travail…

Utilisé en solution indépendante, LARA permet la numérisation par lots homogènes ou hétérogènes des documents papier ainsi que la capture de tous types de supports électroniques (fax, fichiers bureautiques…), la manipulation des fichiers en vue de l'amélioration de la qualité des images, la reconnaissance et la vérification des données selon diverses méthodes, puis leur exportation vers d'autres logiciels en vue d'une exploitation tierce.

Utilisé comme module additionnel au logiciel de GARGANTUA, LARA permet l'automatisation de l'indexation des documents, en mode de traitement individuel ou par lot.

Dans sa version standard, LARA dispose également d'un module de création de formulaires, lequel permet leur optimisation en vue des futurs traitements qui leur seront appliqués.

Quelque soit le type d'organisation, LARA améliore considérablement le traitement des documents, en rendant les contenus rapidement disponibles. Il en résulte une amélioration de la qualité de service, une meilleure compétitivité, un retour sur investissement rapide grâce aux gains de productivité, la libération de ressources pour des fonctions à plus forte valeur ajoutée et l'optimisation de la sécurité.

LARA est composé de différents sous ensembles couvrant la totalité des fonctionnalités nécessaires à la mise en œuvre rapide et simple d'une solution performante de capture, de traitement et de gestion automatique de documents.

1) La conception de modèles de traitement

Pour les formulaires, LARA dispose d'un module dédié à leur conception ; les formulaires étant un cas particulier, ce module spécifique est présenté au paragraphe 8.

LARA dispose d'un concepteur générateur de modèles qui de manière simple, à travers un assistant, permet de définir les règles selon lesquelles seront extraites les informations contenues dans les documents ou les formulaires. Chaque type de document, pour pouvoir être traité par LARA, doit avoir un modèle associé. Une base de modèles se constitue donc dans le temps avec un enrichissement progressif.

Un modèle est composé de blocs de données ainsi que de règles automatiques de validation. Les blocs sont des éléments importants d'un modèle puisqu'ils sont utilisés pour différencier les éléments à reconnaître de ceux à ne pas reconnaître, pour sélectionner les marques de référence qui permettent d’associer un document à un modèle, ou pour repositionner l’image afin d’obtenir un meilleur taux de reconnaissance.


Figure 1 : L’éditeur des modèles de LARA

Exemple : la figure ci-dessus montre une étape de la définition des blocs d'un modèle. Les zones encadrées en rouge indiquent ce qui est considéré comme image donc à ne pas reconnaître, en vert les blocs de texte à lire, en orange les blocs de cases à cocher (blocs 1 à 3). Le bloc 4 entourant les blocs 1 à 3 indique qu'une règle y a été associée.

Parmi les principales propriétés des blocs, citons les types de blocs (texte, coche, marque, code barre, image), les types de lettres (majuscule, minuscule), les types de chiffres ou de données (exemple : un numéro de téléphone doit comporter 10 chiffres et commencer par zéro), les dictionnaires et les listes, les options de reconnaissance et les options de vérification. Ces propriétés permettent, en particulier, d’améliorer l’extraction des informations des blocs de données, et, en général, d’optimiser le processus de traitement.

Dans les modèles, on peut définir des règles automatiques de validation. Une règle de validation est une suite de conditions que des données lues doivent respecter (exemple : la lecture d'un jour doit donner un résultat compris entre 0 et 31 sauf si le mois est 02, etc.). On définit des règles pour :

  • vérifier le format des données reconnues et les normaliser si nécessaire (exemple : une règle peut être établie pour vérifier et normaliser les dates),
  • comparer les résultats de la reconnaissance avec le contenu de bases de données ou des listes des valeurs autorisées,
  • vérifier les rapports entre plusieurs blocs (exemples : vérifier qu'une valeur numérique en chiffres correspond à une même valeur numérique en toutes lettres, vérifier si les valeurs ont été additionnées correctement…),
  • vérifier des résultats d'opérations arithmétiques ou de fusion de champs, …


Figure 2: Définition de règles de validation sur un modèle

Pour simplifier l’organisation du processus d’extraction automatique des informations des formulaires, LARA travaille au niveau de lots. Un lot se compose de pages, chacune représentant l’image numérisée d’un document complété, et de modèles. Un modèle décrit une page et contient les informations nécessaires à l’identification et à la reconnaissance du contenu de celle-ci. Dans un lot il peut y avoir jusqu'à 99 modèles, donc, autant de types de documents différents.


Figure 3 : Définition de la composition d’un lot
Dans cet exemple, le lot est composé de 2 modèles : un modèle recto et un modèle verso.

Hormis les modèles associés, pour un lot on définit aussi les règles d’exportation des données recueillies. On peut exporter les données sous divers formats texte simple comme XML par exemple, ou à travers des objets OLE, vers des applications tierces, en vue d’une utilisation ultérieure.

2) Architecture et administration de la production

Le processus de traitement effectif des documents comprend plusieurs étapes successives : numérisation, reconnaissance, vérification, validation et exportation des données en vue de leur utilisation ultérieure. Chacune des étapes peut être réalisée par le même opérateur sur un même poste, ou par des opérateurs différents sur des postes de travail distincts. Elles peuvent également être regroupées et séquencées.

LARA est un produit à la fois très flexible et totalement extensible. Si, par exemple, l’étape de reconnaissance demande une puissance de calcul importante ou prend beaucoup de temps, il est possible de la paralléliser sur plusieurs postes tous chargés de cette opération. Si on constate que la vérification des lots est trop lente, de la même manière, on peut ajouter des postes supplémentaires affectés à la vérification. L'architecture devra donc être adaptée au cas par cas en fonction de critères variés tels que quantités, impératifs de temps, etc.

Le poste d’administration est utilisé pour paramétrer le processus de traitement, définir les modèles, définir les lots et éventuellement créer les formulaires. Ce poste permet également de surveiller le processus de traitement.


Figure 4 : Synoptique du processus de traitement

Dans un cas général, plusieurs types de postes de travail peuvent être prévus :

  • Le poste de numérisation est le point d’entrée dans le processus de traitement. Il produit des lots contenant des documents numérisés.
  • Le poste de reconnaissance reçoit les lots numérisés. A travers une opération automatique, il identifie (par association d'un modèle de reconnaissance à chaque image) et reconnaît chaque image du lot (par application du modèle de reconnaissance sélectionné sur l’image). L’intervention d’un opérateur est uniquement nécessaire dans le cas très peu probable d’une erreur d’identification d’une page, laquelle est alors positionnée dans une corbeille de post traitement.
    En sortie, les lots sont identifiés et reconnus.
  • Le poste de validation et de vérification reçoit pour traitement les lots identifiés et reconnus. La validation est un double processus :
    • automatique d'abord, il consiste à contrôler les données recueillies à l’aide des règles de validation et par utilisation de bases de données, de dictionnaires ou autres,
    • manuel ensuite, pour ce qui reste incertain. Une procédure de contrôle visuel des caractères douteux et des caractères explicitement marqués comme devant être vérifiés est alors appliquée. L’opérateur, aussi appelé vidéo-codeur, corrige les éventuelles erreurs de reconnaissance. Là aussi, les règles de validation facilitent la tâche de vérification manuelle et peuvent également être utilisées pour modifier les résultats de la reconnaissance.

    En sortie, les lots sont validés.
  • Le poste d’exportation reçoit des lots validés et, selon les règles prédéfinies, exporte les données. La procédure d’exportation est automatisée et l’intervention d’un opérateur n’est pas nécessaire

3) La capture

LARA utilise les modules de numérisation de GARGANTUA et de ce fait gère directement, à travers ses propres drivers et sans additif de modules externes, un certain nombre de scanners, des plus simples aux plus performants. Ceci permet l'intégration directe et instantanée des documents numérisés dans l'espace de travail ; aucune reprise n'est nécessaire. Pour les scanners ne disposant pas de driver interne, le mode Twain est également disponible.

Pour faciliter l'utilisation des périphériques de numérisation, il est possible de mémoriser les paramètres de luminosité, contraste, taux de compression, etc. Ceci permet de rappeler directement des réglages adaptés et optimisés aux types et qualités de papier à saisir, afin d'éviter de rétablir des ajustements parfois fastidieux. Des fonctions de détection et d'ajustement automatique des seuils de réglages à chaque document sont également disponibles, en cas de numérisation de papiers totalement hétérogènes.


Figure 5 : Le paramétrage en ligne d'un scanner

Un document numérisé est stocké sous un type défini de fichier et compressé selon le mode et le format le mieux adapté à la nature du document. Les principaux compresseurs tels que CCITT G4, JPEG, GIF, PNG, etc., sont disponibles en standard dans LARA pour les saisies d'images noir et blanc, couleur ou niveaux de gris. Une fonction, particulière au produit, permet de changer le type de format de fichier ainsi que le type de compression.

Quelque soit le type de saisie, la décompression est instantanée et un module de contrôle de la qualité de numérisation permet de « feuilleter » page à page le contenu des lots.


Figure 6 : Les options disponibles pour deux types de formats de fichiers avec les compresseurs associés

Au delà de la numérisation, diverses fonctions dites de traitement de l'image peuvent être appliquées afin d'améliorer la qualité et la lisibilité de chaque document. LARA dispose d'une très large gamme de ces outils parmi lesquels les fonctions de redressement automatique, rotation par pas de 90° ou par sélection d'angle, détection de l'orientation des pages, offset et repositionnement, nettoyage, détachage, détection des seuils de contraste, etc.

4) L'identification

L'identification est la première étape du traitement : c’est un processus automatique qui s’exécute sur chaque page de chaque lot. Au sein d’un lot de documents variés la nature de chacun est déterminée grâce à des algorithmes de reconnaissance de forme. Ainsi identifiés, les documents sont prêts à recevoir un traitement de reconnaissance adapté à leur structure. Cette fonction, généralement appelée RAD, permet d'identifier un nombre illimité de formats ou de présentations, avec un taux de réussite proche de 100%.

Exemples :

  • Traitement des formulaires multi-pages : lors de la numérisation, un formulaire génèrera plusieurs fichiers qui ne seront pas systématiquement dans un ordre défini (en cas de positionnement à l'envers dans le scanner, par exemple). Il est alors nécessaire de repositionner ces fichiers afin que les données contenues puissent être exportées dans le bon ordre.
  • Traitement de factures fournisseurs : compte tenu de la diversité des modèles il est nécessaire de les identifier avant la reconnaissance. On peut éventuellement y appliquer des fonctions de redressement ou de rotation, afin de pouvoir en extraire les données souhaitées : code fournisseur, numéro de facture, date, nature des fournitures, montants et autres références, par exemple.

Pour un lot, l’opération est considérée comme terminée quand toutes les images ont été identifiées. Les éventuelles erreurs sont présentées à l’opérateur pour correction.

5) La reconnaissance

La reconnaissance est l'étape principale du traitement : c’est un processus automatique qui s’exécute sur chaque page identifiée de chaque lot. Elle utilise les meilleurs moteurs de reconnaissance du marché basés sur les algorithmes d'intelligence artificielle et d'analyse multi- niveaux. Les analyses multi-niveaux (MDA) combinent une variété de classificateurs et de moteurs de reconnaissance pour analyser les données à des niveaux multiples : page, tableau, cellule, paragraphe, image, ligne, mot, caractère… Les objets sont analysés non seulement de manière spécifique, mais aussi vis à vis du contexte dans lequel ils se trouvent. Cette technologie est mise en œuvre pour l'OCR (caractères dactylographiés), l'ICR (lettres et caractères manuscrits), et l'OMR (coches, marques, cerclage de sélection ou de nombre). A ceci s'ajoute la lecture de codes barres.

La reconnaissance s'effectue par détection automatique du type de texte et mise en correspondance des zones établies dans les modèles avec les documents numérisés. Des dictionnaires internes et externes permettent d'améliorer la qualité de la reconnaissance.


Figure 7 : Résultat de l’identification et de la reconnaissance

Dans la colonne « Modèle » on lit le nom du modèle qui a été associé à chaque page, dans la colonne « Caractères incertains » est indiqué le pourcentage des caractères douteux suite au processus de reconnaissance. Note : un caractère douteux n'est pas obligatoirement un caractère mal reconnu.

Pour un lot, l’opération est terminé quand toutes les images ont été reconnues. Le lot est alors considéré comme reconnu et peut être pris en compte par l’étape suivante.

6) Validation et vérification

LARA utilise différents modes de vérification qui permettent de garantir la fiabilité et la cohérence des données produites. Les étapes de vérification et de validation ont pour but de transformer les données brutes issues du processus de reconnaissance en données validées, exportables et exploitables dans des applications autres.

La validation, selon la définition des règles dans le modèle, corrige ou complète automatiquement les valeurs des champs. Elle peut aussi vérifier que la valeur reconnue d’un champ correspond à certains critères (exemple : une date est bien dans une plage de dates, un mot est dans une liste de mots, une clé se trouve dans une base de données). L’opération de vérification consiste à éliminer manuellement les caractères dont la reconnaissance est restée incertaine.

L’ordre d’exécution des deux opérations est établi dans la définition du modèle. La vérification peut être exécutée avant, après ou au même temps que la validation. On peut aussi paramétrer le degré d’incertitude accepté pour la reconnaissance d’un caractère ou d'un champ afin que celui-ci soit pris en compte par l’opération manuelle de vérification.

Pendant l’étape de vérification, les champs dont les propriétés montrent un taux d’incertitude de reconnaissance dépassant la limite établie sont présentés à l’opérateur pour être validés ou corrigés. Ils sont affichés un par un, de manière à ce que l’attention du vidéo-codeur soit concentrée uniquement sur le champ courant et non pas sur toute la page.


Figure 8 : Vérification
Les caractères incertains sont indiqués en rouge ; l’opérateur doit les corriger pour valider la valeur du champ.

Pendant l’étape de validation, les règles de validation sont exécutées en séquence. Si l'une d’elles échoue, la page est marquée comme « non validée ». A la fin du processus, les pages non validées sont présentées une par une a l’opérateur pour être corrigées. Le lot est considéré comme valide quand toutes les pages sont vérifiées et validées.

A travers une interface utilisateur très intuitive, l’opérateur peut vérifier à tout instant, l’état d’avancement du processus de traitement du lot.


Figure 9 : Résultat de la vérification et de la validation
Dans cet exemple, les règles de validation ont échoué sur la majorité des pages,
fait signalé par le drapeau rouge dans la colonne « Règles »
.


Figure 10 : Validation des règles
Trois règles ont échoué sur cette page : pour chacune, un message d’erreur est affiché et les champs impliqués sont marqués afin que l’opérateur puisse identifier et éliminer la cause de l’erreur.

7) Exportation

L’exportation, est un processus totalement automatique qui ne s'effectue que sur les lots "validés". LARA crée des fichiers compatibles avec la plupart des formats exigés par les applications de destination. Cette dernière étape assure de fait l'interfaçage avec les autres solutions. Le fichier, dont le type et le format (pouvant être du XML) sont spécifiés dans les règles, est généré et transféré vers l'application destinataire.

8) Le module de création de formulaires

La conception des formulaires est une étape importante du processus d’extraction automatique des informations contenues dans ceux ci, dans la mesure où toutes les autres étapes (numérisation, reconnaissance, vérification et exportation) dépendent de l'état du document initial et de sa "lisibilité" lors du traitement machine.

Le module FORM CREATOR de LARA permet la création de formulaires destinés à être lus et traités par des systèmes automatiques. Ces formulaires seront ensuite imprimés, distribués, remplis, puis collectés, numérisés et finalement traités par les différents modules du logiciel.

Le module FORM CREATOR est doté d'une interface conviviale, intuitive, simple d'emploi ainsi que d'outils de création d'éléments standards fréquemment rencontrés sur les formulaires destinés à être interprétés en machine. Ces éléments sont conçus et créés dès le départ en prévision de leur traitement. Pour cela, le programme vérifie et ajuste chaque zone séparément (taille des cases, espacement….) et le formulaire final dans son intégralité afin de garantir le succès de son traitement par l'ordinateur. Il est ainsi possible de créer des formulaires de façon simple et rapide, puisque le programme se charge des tâches les plus fastidieuses.


Figure 11 : Module de création de formulaires FORM CREATOR

9) Développements spécifiques

LARA Automation API est un SDK qui offre la possibilité de contrôler le processus de traitement, depuis l’étape de numérisation jusqu'à l’exportation. L’API est construit en respectant le standard COM et peut être utilisé dans des applications Visual Basic, C, C++ ou dans les environnements de type script.

La gamme de produits SIATEL est le résultat d'une étroite coopération entre les utilisateurs et les équipes de développement. Consciente qu'un logiciel ne répond pas toujours en l'état aux besoins exacts, SIATEL met à la disposition de ses clients, utilisateurs de LARA, et des autres produits de la gamme, une équipe d'ingénieurs spécialisés dans le paramétrage, le développement d'applications spécifiques et l'interconnexion avec d'autres produits.

10) Logiciels périphériques

LARA permet d'exporter les données recueillies et de s'intégrer dans tout autre système existant.

LARA possède également des interfaces directes vers les logiciels :

  • de GED GARGANTUA
  • de workflow NORA