LARA est le module
de traitement automatique de documents de la gamme
des logiciels de gestion de l'information de SIATEL. Il
inclut entre autres les fonctionnalités couramment
nommées LAD (lecture automatique
de documents) et RAD (reconnaissance
automatique de documents).
LARA est
conçu pour capturer
l'information provenant de
supports variés, la
traiter de manière
automatique et l'exporter
vers des bases de données
ou des systèmes de
gestion. LARA apporte
une automatisation maximale
dans le traitement des documents,
avec une qualité et
une efficacité
déterminantes pour le succès et la
rentabilité de la solution. LARA est
la solution idéale, facile à mettre
en œuvre, facile à utiliser, très
flexible, elle permet de devancer
toutes les exigences des utilisateurs en
matière de sécurité
et d'adaptation.
LARA peut être
utilisé de diverses
manières, et principalement
:
- en solution indépendante
pour la capture automatisée de données
provenant de formulaires ou de documents divers
mais structurés,
- comme module de lecture et d'indexation
de documents destinés à être
conservés et stockés dans le logiciel
de GEDD GARGANTUA, ou traités
dans un processus de workflow du module NORA.
LARA traite les documents
dactylographiés (OCR), les
caractères et les chiffres manuscrits (ICR),
les coches et les marques (OMR),
les différents codes barres et les codes CMC7.
Les domaines d'application sont innombrables : parmi
les principaux, citons le traitement des factures
et des formulaires de tous types, les bordereaux
de dépôt bancaires, les questionnaires,
les fiches de travail…
Utilisé en solution
indépendante, LARA permet
la numérisation par lots homogènes
ou hétérogènes des documents
papier ainsi que la capture de tous types de supports électroniques
(fax, fichiers bureautiques…), la manipulation
des fichiers en vue de l'amélioration de
la qualité des images, la reconnaissance
et la vérification des données selon
diverses méthodes, puis leur exportation
vers d'autres logiciels en vue d'une exploitation
tierce.
Utilisé comme module
additionnel au logiciel de GARGANTUA, LARA permet
l'automatisation de l'indexation des documents,
en mode de traitement individuel ou par lot.
Dans sa version standard, LARA dispose
également d'un module de création de
formulaires, lequel permet leur optimisation en vue
des futurs traitements qui leur seront appliqués.
Quelque soit le type
d'organisation, LARA améliore
considérablement le
traitement des documents,
en rendant les contenus rapidement
disponibles. Il en résulte
une amélioration de
la qualité de service,
une meilleure compétitivité,
un retour sur investissement
rapide grâce aux gains
de productivité, la
libération de ressources
pour des fonctions à plus
forte valeur ajoutée
et l'optimisation de la sécurité.
LARA est
composé de différents
sous ensembles couvrant la
totalité des fonctionnalités
nécessaires à
la mise en œuvre rapide et simple d'une solution
performante de capture, de traitement et de gestion
automatique de documents.
1) La
conception de modèles de traitement
Pour les formulaires, LARA dispose
d'un module dédié à leur conception
; les formulaires
étant un cas particulier, ce module spécifique
est présenté
au paragraphe 8.
LARA dispose
d'un concepteur générateur
de modèles qui de
manière simple, à travers
un assistant, permet de définir
les règles selon lesquelles
seront extraites les informations
contenues dans les documents
ou les formulaires. Chaque
type de document, pour pouvoir être
traité par LARA,
doit avoir un modèle
associé. Une base
de modèles se constitue
donc dans le temps avec un
enrichissement progressif.
Un modèle est composé de blocs de données
ainsi que de règles automatiques de validation.
Les blocs sont des éléments importants
d'un modèle puisqu'ils sont utilisés
pour différencier les éléments à reconnaître
de ceux à
ne pas reconnaître, pour sélectionner
les marques de référence qui permettent
d’associer un document à un modèle,
ou pour repositionner l’image afin d’obtenir
un meilleur taux de reconnaissance.
Figure 1 : L’éditeur des
modèles de LARA
Exemple :
la figure ci-dessus montre une étape de la
définition des blocs d'un modèle. Les
zones encadrées en rouge indiquent ce qui
est considéré comme image donc à ne
pas reconnaître, en vert les blocs de texte à lire,
en orange les blocs de cases
à cocher (blocs 1 à 3). Le bloc 4 entourant
les blocs 1
à 3 indique qu'une règle y a été associée.
Parmi les principales propriétés
des blocs, citons les types de blocs (texte, coche,
marque, code barre, image), les types de lettres
(majuscule, minuscule), les types de chiffres ou
de données (exemple :
un numéro de téléphone doit
comporter 10 chiffres et commencer par zéro),
les dictionnaires et les listes, les options de reconnaissance
et les options de vérification. Ces propriétés
permettent, en particulier, d’améliorer
l’extraction des informations des blocs de
données, et, en général, d’optimiser
le processus de traitement.
Dans les modèles, on peut définir des
règles automatiques de validation. Une règle
de validation est une suite de conditions que des
données lues doivent respecter (exemple :
la lecture d'un jour doit donner un résultat
compris entre 0 et 31 sauf si le mois est 02, etc.).
On définit des règles pour :
- vérifier le format des données
reconnues et les normaliser si nécessaire
(exemple :
une règle peut être établie
pour vérifier et normaliser les dates),
- comparer les résultats de la reconnaissance
avec le contenu de bases de données ou des
listes des valeurs autorisées,
- vérifier les rapports entre plusieurs
blocs (exemples :
vérifier qu'une valeur numérique
en chiffres correspond
à une même valeur numérique
en toutes lettres, vérifier si les valeurs
ont été additionnées correctement…),
- vérifier des résultats d'opérations
arithmétiques ou de fusion de champs, …

Figure 2: Définition de règles
de validation sur un modèle
Pour simplifier l’organisation
du processus d’extraction automatique des informations
des formulaires, LARA travaille
au niveau de lots. Un lot se compose de pages, chacune
représentant l’image numérisée
d’un document complété, et de
modèles. Un modèle décrit une
page et contient les informations nécessaires à l’identification
et
à la reconnaissance du contenu de celle-ci.
Dans un lot il peut y avoir jusqu'à 99 modèles,
donc, autant de types de documents différents.

Figure 3 : Définition de la
composition d’un lot
Dans
cet exemple, le lot est
composé de 2 modèles
: un modèle recto
et un modèle verso.
Hormis les modèles associés,
pour un lot on définit aussi les règles
d’exportation des données recueillies.
On peut exporter les données sous divers formats
texte simple comme XML par exemple, ou à travers
des objets OLE, vers des applications tierces, en
vue d’une utilisation ultérieure.
2) Architecture
et administration de la production
Le processus de traitement effectif
des documents comprend plusieurs étapes successives
: numérisation, reconnaissance, vérification,
validation et exportation des données en vue
de leur utilisation ultérieure. Chacune des étapes
peut
être réalisée par le même
opérateur sur un même poste, ou par
des opérateurs différents sur des postes
de travail distincts. Elles peuvent également être
regroupées et séquencées.
LARA est
un produit à la fois
très flexible et totalement
extensible. Si, par exemple,
l’étape de reconnaissance
demande une puissance de
calcul importante ou prend
beaucoup de temps, il est
possible de la paralléliser
sur plusieurs postes tous
chargés de cette opération.
Si on constate que la vérification
des lots est trop lente,
de la même manière,
on peut ajouter des postes
supplémentaires affectés à la
vérification. L'architecture
devra donc être adaptée
au cas par cas en fonction
de critères variés
tels que quantités,
impératifs de temps,
etc.
Le poste d’administration
est utilisé pour paramétrer le processus
de traitement, définir les modèles,
définir les lots et éventuellement
créer les formulaires. Ce poste permet également
de surveiller le processus de traitement.

Figure 4 : Synoptique du processus
de traitement
Dans un cas général,
plusieurs types de postes de travail peuvent être
prévus :
- Le poste de numérisation
est le point d’entrée dans le processus
de traitement. Il produit des lots contenant des
documents numérisés.
- Le poste de reconnaissance reçoit
les lots numérisés. A travers une
opération automatique, il identifie (par
association d'un modèle de reconnaissance à chaque
image) et reconnaît chaque image du lot (par
application du modèle de reconnaissance
sélectionné sur l’image). L’intervention
d’un opérateur est uniquement nécessaire
dans le cas très peu probable d’une
erreur d’identification d’une page,
laquelle est alors positionnée dans une
corbeille de post traitement.
En sortie, les lots sont identifiés et reconnus.
- Le poste de validation et de
vérification reçoit pour traitement
les lots identifiés et reconnus. La validation
est un double processus :
- automatique
d'abord, il consiste à contrôler
les données
recueillies à l’aide
des règles
de validation et
par utilisation de
bases de données,
de dictionnaires
ou autres,
- manuel ensuite, pour ce
qui reste incertain. Une procédure de
contrôle visuel des caractères
douteux et des caractères explicitement
marqués comme devant être vérifiés
est alors appliquée. L’opérateur,
aussi appelé
vidéo-codeur, corrige les éventuelles
erreurs de reconnaissance. Là aussi,
les règles de validation facilitent
la tâche de vérification manuelle
et peuvent également être utilisées
pour modifier les résultats de la reconnaissance.
En sortie, les lots sont validés.
- Le poste d’exportation
reçoit des lots validés et, selon
les règles prédéfinies, exporte
les données. La procédure d’exportation
est automatisée et l’intervention
d’un opérateur n’est pas nécessaire
3) La
capture
LARA utilise les
modules de numérisation de GARGANTUA et
de ce fait gère directement, à
travers ses propres drivers et sans additif de modules
externes, un certain nombre de scanners, des plus
simples aux plus performants. Ceci permet l'intégration
directe et instantanée des documents numérisés
dans l'espace de travail ; aucune reprise n'est nécessaire.
Pour les scanners ne disposant pas de driver interne,
le mode Twain est également disponible.
Pour faciliter l'utilisation des
périphériques de numérisation,
il est possible de mémoriser les paramètres
de luminosité, contraste, taux de compression,
etc. Ceci permet de rappeler directement des réglages
adaptés et optimisés aux types et qualités
de papier à saisir, afin d'éviter de
rétablir des ajustements parfois fastidieux.
Des fonctions de détection et d'ajustement
automatique des seuils de réglages
à chaque document sont également disponibles,
en cas de numérisation de papiers totalement
hétérogènes.

Figure 5 : Le paramétrage en
ligne d'un scanner
Un document numérisé est
stocké sous un type défini de fichier
et compressé selon le mode et le format le
mieux adapté à la nature du document.
Les principaux compresseurs tels que CCITT G4, JPEG,
GIF, PNG, etc., sont disponibles en standard dans
LARA pour les saisies d'images noir et blanc, couleur
ou niveaux de gris. Une fonction, particulière
au produit, permet de changer le type de format de
fichier ainsi que le type de compression.
Quelque soit le type de saisie,
la décompression est instantanée et
un module de contrôle de la qualité
de numérisation permet de « feuilleter » page à
page le contenu des lots.

Figure 6 : Les options disponibles
pour deux types de formats de fichiers avec les
compresseurs associés
Au delà de la numérisation,
diverses fonctions dites de traitement de l'image
peuvent être appliquées afin d'améliorer
la qualité et la lisibilité de chaque
document. LARA dispose d'une très large gamme
de ces outils parmi lesquels les fonctions de redressement
automatique, rotation par pas de 90° ou par sélection
d'angle, détection de l'orientation des pages,
offset et repositionnement, nettoyage, détachage,
détection des seuils de contraste, etc.
4) L'identification
L'identification est la première étape
du traitement : c’est un processus automatique
qui s’exécute sur chaque page de chaque
lot. Au sein d’un lot de documents variés
la nature de chacun est déterminée
grâce à
des algorithmes de reconnaissance de forme. Ainsi
identifiés, les documents sont prêts à recevoir
un traitement de reconnaissance adapté à leur
structure. Cette fonction, généralement
appelée RAD, permet d'identifier un nombre
illimité de formats ou de présentations,
avec un taux de réussite proche de 100%.
Exemples :
- Traitement des formulaires
multi-pages : lors
de la numérisation, un formulaire génèrera
plusieurs fichiers qui ne seront pas systématiquement
dans un ordre défini (en cas de positionnement à l'envers
dans le scanner, par exemple). Il est alors nécessaire
de repositionner ces fichiers afin que les données
contenues puissent être exportées
dans le bon ordre.
- Traitement de factures
fournisseurs : compte
tenu de la diversité des modèles
il est nécessaire de les identifier avant
la reconnaissance. On peut éventuellement
y appliquer des fonctions de redressement ou
de rotation, afin de pouvoir en extraire les
données souhaitées : code fournisseur,
numéro de facture, date, nature des fournitures,
montants et autres références,
par exemple.
Pour un lot, l’opération est considérée
comme terminée quand toutes les images ont été identifiées.
Les éventuelles erreurs sont présentées à
l’opérateur pour correction.
5) La
reconnaissance
La reconnaissance est l'étape
principale du traitement : c’est un processus
automatique qui s’exécute sur chaque
page identifiée de chaque lot. Elle utilise
les meilleurs moteurs de reconnaissance du marché basés
sur les algorithmes d'intelligence artificielle et
d'analyse multi- niveaux. Les analyses multi-niveaux
(MDA) combinent une variété de classificateurs
et de moteurs de reconnaissance pour analyser les
données à
des niveaux multiples : page, tableau, cellule, paragraphe,
image, ligne, mot, caractère… Les objets
sont analysés non seulement de manière
spécifique, mais aussi vis à vis du
contexte dans lequel ils se trouvent. Cette technologie
est mise en œuvre pour l'OCR (caractères
dactylographiés), l'ICR (lettres et caractères
manuscrits), et l'OMR (coches, marques, cerclage
de sélection ou de nombre). A ceci s'ajoute
la lecture de codes barres.
La reconnaissance s'effectue par
détection automatique du type de texte et
mise en correspondance des zones établies
dans les modèles avec les documents numérisés.
Des dictionnaires internes et externes permettent
d'améliorer la qualité de la reconnaissance.
Figure 7 : Résultat
de l’identification et de la reconnaissance
Dans la colonne « Modèle » on
lit le nom du modèle qui a été associé à
chaque page, dans la colonne « Caractères
incertains » est indiqué le pourcentage
des caractères douteux suite au processus
de reconnaissance. Note : un caractère
douteux n'est pas obligatoirement un caractère
mal reconnu.
Pour un lot, l’opération
est terminé
quand toutes les images ont été reconnues.
Le lot est alors considéré comme reconnu
et peut être pris en compte par l’étape
suivante.
6) Validation
et vérification
LARA utilise différents
modes de vérification qui permettent de garantir
la fiabilité et la cohérence des données
produites. Les étapes de vérification
et de validation ont pour but de transformer les
données brutes issues du processus de reconnaissance
en données validées, exportables et
exploitables dans des applications autres.
La validation, selon la définition
des règles dans le modèle, corrige
ou complète automatiquement les valeurs des
champs. Elle peut aussi vérifier que la valeur
reconnue d’un champ correspond à certains
critères (exemple :
une date est bien dans une plage de dates, un mot
est dans une liste de mots, une clé se trouve
dans une base de données). L’opération
de vérification consiste à éliminer
manuellement les caractères dont la reconnaissance
est restée incertaine.
L’ordre d’exécution
des deux opérations est
établi dans la définition du modèle.
La vérification peut être exécutée
avant, après ou au même temps que la
validation. On peut aussi paramétrer le degré
d’incertitude accepté pour la reconnaissance
d’un caractère ou d'un champ afin que
celui-ci soit pris en compte par l’opération
manuelle de vérification.
Pendant l’étape de
vérification, les champs dont les propriétés
montrent un taux d’incertitude de reconnaissance
dépassant la limite établie sont présentés
à l’opérateur pour être
validés ou corrigés. Ils sont affichés
un par un, de manière à ce que l’attention
du vidéo-codeur soit concentrée uniquement
sur le champ courant et non pas sur toute la page.

Figure 8 : Vérification
Les caractères incertains sont indiqués
en rouge ; l’opérateur doit les
corriger pour valider la valeur du champ.
Pendant l’étape de
validation, les règles de validation sont
exécutées en séquence. Si l'une
d’elles échoue, la page est marquée
comme « non validée ».
A la fin du processus, les pages non validées
sont présentées une par une a l’opérateur
pour être corrigées. Le lot est considéré comme
valide quand toutes les pages sont vérifiées
et validées.
A travers une interface utilisateur
très intuitive, l’opérateur peut
vérifier à tout instant, l’état
d’avancement du processus de traitement du
lot.
Figure 9 : Résultat de la vérification
et de la validation
Dans
cet exemple, les règles
de validation ont échoué sur
la majorité des
pages,
fait signalé par
le drapeau rouge dans
la colonne « Règles
».

Figure 10 : Validation des règles
Trois règles ont échoué sur
cette page : pour chacune, un message d’erreur
est affiché et les champs impliqués
sont marqués afin que l’opérateur
puisse identifier et éliminer la cause de
l’erreur.
7) Exportation
L’exportation, est un processus
totalement automatique qui ne s'effectue que sur
les lots "validés". LARA crée
des fichiers compatibles avec la plupart des formats
exigés par les applications de destination.
Cette dernière étape assure de fait
l'interfaçage avec les autres solutions. Le
fichier, dont le type et le format (pouvant être
du XML) sont spécifiés dans les règles,
est généré et transféré
vers l'application destinataire.
8) Le
module de création de formulaires
La conception des formulaires est
une étape importante du processus d’extraction
automatique des informations contenues dans ceux
ci, dans la mesure où toutes les autres étapes
(numérisation, reconnaissance, vérification
et exportation) dépendent de l'état
du document initial et de sa "lisibilité"
lors du traitement machine.
Le module FORM CREATOR de LARA permet
la création de formulaires destinés à être
lus et traités par des systèmes automatiques.
Ces formulaires seront ensuite imprimés, distribués,
remplis, puis collectés, numérisés
et finalement traités par les différents
modules du logiciel.
Le module FORM CREATOR est doté d'une
interface conviviale, intuitive, simple d'emploi
ainsi que d'outils de création d'éléments
standards fréquemment rencontrés sur
les formulaires destinés
à être interprétés en
machine. Ces éléments sont conçus
et créés dès le départ
en prévision de leur traitement. Pour cela,
le programme vérifie et ajuste chaque zone
séparément (taille des cases, espacement….)
et le formulaire final dans son intégralité afin
de garantir le succès de son traitement par
l'ordinateur. Il est ainsi possible de créer
des formulaires de façon simple et rapide,
puisque le programme se charge des tâches les
plus fastidieuses.
Figure 11 : Module de création
de formulaires FORM CREATOR
9) Développements
spécifiques
LARA Automation
API est un SDK qui offre la possibilité de
contrôler le processus de traitement, depuis
l’étape de numérisation jusqu'à l’exportation.
L’API est construit en respectant le standard
COM et peut être utilisé dans des applications
Visual Basic, C, C++ ou dans les environnements de
type script.
La gamme de produits SIATEL est
le résultat d'une
étroite coopération entre les utilisateurs
et les équipes de développement. Consciente
qu'un logiciel ne répond pas toujours en l'état
aux besoins exacts, SIATEL met à la disposition
de ses clients, utilisateurs de LARA, et des autres
produits de la gamme, une équipe d'ingénieurs
spécialisés dans le paramétrage,
le développement d'applications spécifiques
et l'interconnexion avec d'autres produits.
10) Logiciels
périphériques
LARA permet d'exporter
les données recueillies et de s'intégrer
dans tout autre système existant.
LARA possède également
des interfaces directes vers
les logiciels :
- de GED GARGANTUA
- de workflow NORA
Imprimer
Demande
de documentation