Retro converion dossier

retrieval is build on information (annotations) associated to document images. We propose ..... d'annotations de documents sous des formats très variés : images de documents .... Registres matricules : formulaire normal, deux formulaires avec .... contenant ce patronyme sans qu'il y ait eu auparavant une seule indexation.
1MB taille 4 téléchargements 274 vues
Accès par le contenu aux documents manuscrits d’archives numérisés Bertrand Coüasnon* — Jean Camillerapp** * Irisa/Inria Campus universitaire de Beaulieu F-35042 Rennes cedex ** Irisa/Insa de Rennes 20, Avenue des buttes de Coësmes F-35043 Rennes cedex {Bertrand.Couasnon, Jean.Camillerapp}@irisa.fr

RÉSUMÉ.

Cet article présente l’accès par le contenu aux documents d’archives manuscrits. Cet accès doit s’appuyer sur des informations (annotations) associées aux images de documents. Nous proposons deux manières complémentaires de produire ces annotations : automatiquement en utilisant la reconnaissance de documents, et collectivement sur internet par une saisie manuelle effectuée par les lecteurs eux-mêmes. Une plate-forme de gestion de ces annotations est présentée, ainsi que des exemples d’annotations automatiques sur des registres paroissiaux et d’état civil, des formulaires militaires (registres matricules) et des décrets de naturalisation, en utilisant une méthode générique de reconnaissance de documents. Cette méthode a été validé sur plus de 60 000 pages de documents. Des exemples d’annotations collectives construites sur des annotations automatiques sont donnés. ABSTRACT.

This paper presents handwritten archives document retrieval by content. This retrieval is build on information (annotations) associated to document images. We propose two complementary ways of producing those annotations : automatically by using optical document recognition and collectively by using internet and a manual input by users. A platform for managing those annotations is presented as well as examples of automatic annotations on civil status registers, military forms and naturalization decrees, using a generic document recognition method. This method has been tested on more than 60,000 pages of documents. Examples of collective annotations built on automatic annotations are also given.

MOTS-CLÉS : annotations, accès par le contenu, documents manuscrits, reconnaissance de documents, généricité, tableaux, formulaires, gestion des connaissances a priori, grammaire, reconnaissance de l’écriture manuscrite. KEYWORDS:

annotations, content retrieval, handwritten documents, documents analysis, genericity, table-form, a priori knowledge, grammar, handwriting recognition.

Document numérique. Volume 7 – n° 3-4/2003, pages 61 à 84

62

DN – 7/2003. Numérisation et patrimoine

1. Introduction Les services d’archives possèdent des quantités phénoménales de documents, le plus souvent manuscrits, représentant des centaines de kilomètres de rayonnage. Bien que les archivistes aient toujours construit des index, des outils de recherche, les quantités de documents sont telles qu’il en reste une grande partie difficilement accessibles. En effet, la masse de documents oblige chaque lecteur à feuilleter une énorme quantité de pages avant de retrouver les pages contenant l’information qu’il recherchait. Ce feuilletage est très souvent rédhibitoire. Dans le même temps, le nombre de lecteurs est de plus en plus important, allant jusqu’à saturer les salles de lecture. Les archives ont donc un défi important à relever : comment rendre accessibles au public ces millions de pages contenant des informations manuscrites, pour lesquelles il n’existe pas encore d’outils de recherche construits par les archivistes ? Des campagnes massives de numérisation ont commencé. Ces numérisations permettent une préservation numérique des documents, une diffusion des images via le web, un accès simultané et un feuilletage virtuel. Cependant, cette numérisation se limitant à une prise d’image est insuffisante car les difficultés d’accès sont les mêmes que sur papier ou microfilm. Il est toujours nécessaire de feuilleter (même virtuellement) un nombre trop important d’images de pages de documents. Même si une page peut être visualisée par un lecteur, le temps nécessaire pour retrouver la bonne page est tellement important que ces documents peuvent être considérés comme inaccessibles. Il est donc indispensable de définir de nouveaux outils permettant d’accéder aux documents manuscrits à partir de leur contenu. Ceci est possible en associant des informations (que l’on peut qualifier d’annotations) aux images de documents. Grâce à ces annotations, il sera possible d’effectuer une sélection automatique des documents à partir de leur contenu. Nous proposons de considérer deux types d’annotations pour les documents d’archives : – annotations textuelles : une date, un lieu, un nom, un mot-clé… Toute information sur laquelle il est intéressant de pouvoir effectuer une recherche ; – annotations géométriques : une position dans l’image, comme une case, un champ, une zone, représentée par un rectangle ou un polygone. Bien entendu, toute annotation textuelle peut être liée à une annotation géométrique. Ceci est important, par exemple pour représenter qu’un nom particulier se trouve à l’intérieur d’une case. Rendre accessible un document par son contenu est une tâche difficile qui revient finalement à produire et stocker les annotations qui lui sont liées. Nous proposons donc dans cet article, deux manières complémentaires de produire ces annotations : automatiquement, en utilisant des techniques de reconnaissance de document ; et collectivement, en utilisant internet et la saisie manuelle faite par certains lecteurs. Etant donné la très grande variété de documents

Accès par le contenu manuscrit

63

d’archives, il est nécessaire, notamment pour la production automatique d’annotations, de développer des systèmes de reconnaissance capables de traiter ces différents types de documents. Cependant, la tendance la plus couramment pratiquée jusqu’à présent consiste à développer une nouvelle application pour chaque nouveau type de documents. Ce développement spécifique nécessite de déployer une énergie très importante qui n’est pas compatible avec la grande variété de documents. Nous avons donc défini la méthode DMOS (description et modification de la segmentation) qui est une méthode générique de reconnaissance de documents. Cette méthode a pu être utilisée pour produire différents systèmes de reconnaissance adaptés pour les partitions musicales, les formules mathématiques, les tableaux, les formulaires anciens… Nous présentons cette méthode DMOS dans la section 3 pour la production automatique d’annotations. La section suivante présente une plate-forme de gestion des annotations collectives construites à l’aide des annotations automatiques. Ces annotations collectives sont produites manuellement par les utilisateurs (s’ils le souhaitent) lorsqu’ils lisent un document. Elles sont ensuite disponibles pour les autres lecteurs pour accéder aux images de documents. Dans la section 5, nous montrons l’utilisation de cette plate-forme sur différents documents d’archives : des registres d’état civil et paroissiaux, des registres matricules (formulaires de recrutement militaire) du XIXe siècle et des décrets de naturalisation. Pour chaque document, nous présentons les annotations automatiques que nous pouvons produire grâce à la méthode DMOS et les annotations collectives qui peuvent être ajoutées par les utilisateurs grâce aux annotations automatiques.

2. Production d’annotations 2.1. Annotations manuelles systématiques La production manuelle systématique d’annotations offre l’avantage de pouvoir être utilisée sur des documents de toute sorte, imprimés ou manuscrits, quelle que soit leur qualité. La seule contrainte est de trouver une personne capable de lire ou de déchiffrer le document. Même si elle est parfois utilisée, cette production manuelle d’annotations sur un lot d’images n’est pas raisonnablement envisageable sur des documents qui existent dans des quantités telles que celles rencontrées pour les documents d’archives. Cette annotation manuelle systématique est particulièrement fastidieuse, beaucoup trop longue, avec un risque d’erreur non négligeable et surtout un coût particulièrement prohibitif. Elle est donc absolument incompatible avec les quantités de documents que l’on souhaite rendre accessibles au public.

64

DN – 7/2003. Numérisation et patrimoine

2.2. Annotations automatiques La production automatique d’annotations est donc indispensable afin d’éviter une annotation manuelle beaucoup trop coûteuse. Pour la mettre en œuvre il est nécessaire d’utiliser des techniques de reconnaissance de documents. Sur des documents imprimés récents, les logiciels de reconnaissance de caractères (OCR) existants sont capables de reconnaître pratiquement l’ensemble du texte, qui peut ensuite être utilisé pour construire automatiquement des annotations textuelles. En revanche, sur des documents anciens d’archives, ces systèmes ne fonctionnent plus car le problème est beaucoup plus complexe. En effet, les documents n’ont pas toujours été conservés correctement et ils peuvent donc être altérés : tâches, bavures, déchirures, réparations avec du papier collant… Les documents peuvent avoir été conservés dans des conditions humides, ce qui les déforment. Ceci est un vrai problème car de plus en plus de documents sont numérisés à l’aide de caméras sans pression d’une vitre. Dans l’image ainsi obtenue, les zones initialement rectilignes dans le document deviennent très courbées. En outre, avec le temps, l’encre traverse le papier, ce qui fait apparaître le verso au recto. Des tampons peuvent être ajoutés sur le document, parfois des papiers (paperolles ou retombes) sont collés sur le document, ce qui masque une partie de celui-ci. Lorsque ces documents anciens sont imprimés, la qualité d’impression des caractères est trop faible, les fontes ne sont plus utilisées, ce qui rend la reconnaissance difficile. Nous pouvons ainsi trouver des travaux sur l’accès aux livres du XVIe siècle (Le Bourgeois et al., 2001) et des documents imprimés du XIXe siècle (Mühlberger, 2002). Mais lorsque les documents sont manuscrits, la mauvaise qualité des documents s’ajoute à la difficulté de la reconnaissance de l’écriture manuscrite. Ceci peut sans doute expliquer que nous n’ayons pas trouvé dans la littérature de travaux sur l’accès par le contenu à des documents anciens manuscrits. Afin de produire automatiquement des annotations sur ce type de documents, il est nécessaire, dans un premier temps, de pouvoir localiser où se trouve l’information à partir de laquelle on souhaite pouvoir accéder au document. Cette localisation permet de détecter quelle partie de l’image contient de l’écriture manuscrite et quel type d’information s’y trouve. Par exemple, il est important de pouvoir localiser dans l’image, où se trouve un nom, une date, un lieu… manuscrit sur lequel une recherche pourra avoir lieu afin de retrouver l’image de ce document. Grâce à cette localisation, il devient possible de travailler sur la reconnaissance de l’écriture manuscrite. Afin de détecter la position de certaines zones manuscrites, il est important que le document soit suffisamment structuré. Cette structure peut être relativement forte comme des formulaires, des tableaux, ou plus faible comme des documents

Accès par le contenu manuscrit

65

uniquement manuscrits mais pour lesquels il existe une certaine organisation graphique à l’aide de marges, d’alignement en colonnes, de paragraphes…

2.3. Annotations collectives Certains documents manuscrits d’archives sont particulièrement difficiles à reconnaître. En effet, pour pouvoir produire des annotations automatiques sur du texte manuscrit, il est indispensable en premier lieu de localiser la position de ce texte dans le document. Lorsque le document n’est pas suffisamment structuré, il est pratiquement impossible de détecter cette position. En outre, le texte peut être tellement mal écrit qu’il est nécessaire qu’un paléographe lise le texte ou propose une hypothèse de lecture. C’est pourquoi nous proposons de compléter les annotations automatiques par des annotations manuelles. Pour éviter les annotations manuelles systématiques qui, comme nous l’avons vu à la section 2.1, sont fastidieuses, extrêmement longues et surtout trop coûteuses, nous proposons de faire produire ces annotations collectivement directement par les lecteurs. Pour un lecteur, ce n’est pas long d’entrer quelques annotations au cours de sa lecture. Toutes les annotations ainsi produites sont mises en commun, pour permettre aux autres lecteurs d’améliorer leur accès par le contenu aux documents, même s’ils sont très difficiles à lire. Comme le nombre de lecteurs est important, le nombre d’annotations produites collectivement peut augmenter très rapidement si un outil de gestion des annotations existe et si le processus est amorcé grâce aux annotations automatiques.

3. DMOS, une méthode générique de reconnaissance de documents structurés pour la production automatique d’annotations Le nombre de types de documents à traiter est tel que, contrairement à ce que l’on rencontre dans la littérature, il ne faut pas redévelopper complètement un nouveau système de reconnaissance à chaque nouveau type de document. Nous avons donc proposé, pour des documents à forte structure dans lesquels des règles d’écriture peuvent être connues, la méthode générique de reconnaissance DMOS (description avec modification de la segmentation), constituée : – d’un langage grammatical de description de documents que nous avons défini, EPF (Enhanced Position Formalism), et qui permet de modéliser la connaissance a priori ; – de l’analyseur associé autorisant une modification en cours d’analyse de la structure analysée. Cette modification permet d’introduire le contexte (niveau symbolique) dans la phase de segmentation (niveau numérique), afin d’améliorer la reconnaissance ;

66

DN – 7/2003. Numérisation et patrimoine

– de l’équivalent d’analyseurs lexicaux, afin de reconnaître les terminaux du langage présents dans l’image sous la forme de segments de droite, et sous la forme de symboles pouvant être assimilés à des caractères. Un classifieur ayant des capacités de rejet est capable de reconnaître ces symboles.

3.1. Langage EPF Nous avons défini et développé le langage EPF, permettant de décrire un document structuré aussi bien au niveau graphique que syntaxique. Ce langage peut être vu comme une extension bidimensionnelle des grammaires dans laquelle les terminaux sont des segments ou des matrices de pixels (composantes qui représentent un symbole) au lieu d’être, comme dans les grammaires classiques, des caractères. Cette extension comporte également un certain nombre d’opérateurs spécifiques dont voici quelques exemples : Opérateur de position (encadré par AT) : A && AT(pos) && B signifie A, et à la position pos relativement à A, on trouve B, où A et B représentent un terminal ou un non-terminal et && désigne la concaténation dans la grammaire. Si, par exemple, pos prend la valeur extremiteGauche cela signifie que B doit se trouver près de l’extrémité gauche de A. Le concepteur de la grammaire peut définir à la demande des opérateurs de position, comme extremiteGauche, de la même manière qu’il peut le faire pour des non terminaux. L’opérateur définit, par rapport à A, une zone de l’image dans laquelle B doit se trouver (figure 1). Opérateur de factorisation (##, en association avec les opérateurs de position) : A && ( AT(pos1) && B ## AT(pos2) && C) signifie (A && AT(pos1) && B) et (A && AT(pos2) && C). En notant par ::= le constructeur d’une règle grammaticale, il est possible, grâce à cette syntaxe de décrire, par exemple, un groupe de notes (des croches reliées par une seule barre de groupe, figure 1). Cette règle groupeDeNote ne spécifie ni le nombre de notes reconnues par noteAuMilieu, ni la direction des hampes. Ainsi une seule règle peut décrire l’ensemble des groupes de notes que l’on peut trouver dans une partition. D’autres opérateurs sont présents dans le langage EPF. Ils permettent d’exprimer de manière plus large une description graphique et syntaxique d’un document (Coüasnon, 2001 ; Coüasnon et al., 2002).

Accès par le contenu manuscrit

67

groupeDeNote ::= barreDeGroupe && (AT(extremiteGauche) && noteGr ## notesAuMilieu ## AT(extremiteDroite) && noteGr).

Figure 1. Exemple de description grammaticale d’un ensemble de croches. La zone définie par l’opérateur extremiteGauche est représentée sur l’image

3.2. Analyseur associé Le langage EPF décrit ci-dessus permet de définir grammaticalement le document à reconnaître. De cette grammaire nous produisons automatiquement un analyseur (Coüasnon et al., 1995a) qui possède des caractéristiques spécifiques à l’analyse de documents bidimensionnels. Ainsi, nous pouvons souligner les trois principales caractéristiques de l’analyseur que nous avons développé (à deux dimensions), par rapport à un analyseur classique (à une dimension) pour les langages formels : – remise en cause de la structure analysée en cours d’analyse (pour effectuer des segmentations contextuelles) ; – détection de l’élément suivant à analyser. En effet, pour les analyseurs classiques, l’élément suivant est simplement celui qui est en tête de la chaîne analysée alors qu’en deux dimensions, l’élément suivant peut être n’importe où dans l’image, donc n’importe où dans la structure analysée ; – gestion correcte du bruit. Contrairement aux analyseurs classiques où la structure analysée est peu bruitée, en reconnaissance de documents il est nécessaire que l’analyseur soit capable de reconnaître le maximum d’informations dans un flux très bruité. Nous pouvons considérer que la gestion du bruit correspond à trouver l’élément suivant, malgré le bruit.

3.3. Reconnaissance des éléments terminaux Les éléments terminaux du langage EPF permettent de représenter les informations de base de l’analyse d’un document. Ces informations, très présentes dans les documents structurés, correspondent aux segments de droite et aux symboles pouvant être assimilés à des caractères. Détection de segments de droite : la détection des segments de droite s’appuie sur un filtrage de Kalman effectué sur la position et sur la taille des empans noirs dans une direction approximativement orthogonale au tracé (Poulain et al., 1996). Cette technique permet la détection des segments de droite, même lors de forts

68

DN – 7/2003. Numérisation et patrimoine

problèmes de segmentation : intersection de segments, segments touchant des symboles… Classifieur à forte fiabilité : le classifieur de symboles que nous avons développé est constitué d’un réseau de neurones à fonctions à bases radiales (Radial Basis Functions, RBF), à trois couches, prenant en entrée des caractéristiques géométriques classiques en reconnaissance de caractères. Ces caractéristiques sont adaptées aux symboles à reconnaître grâce à la mise en œuvre d’une sélection par algorithme génétique. L’originalité du classifieur provient également de la méthode d’apprentissage, locale à chaque classe et en deux étapes, qui permet de réaliser un rejet bien défini et efficace, tout en conservant de bonnes propriétés en généralisation (Anquetil et al., 2000).

3.4. DocRead : un générateur automatique de systèmes de reconnaissance de documents structurés DocRead est un générateur automatique de systèmes de reconnaissance de documents structurés (Coüasnon, 2001), développé grâce à la méthode DMOS. Celui-ci est constitué d’un compilateur du langage EPF (permettant de décrire un document à l’aide d’une grammaire) (section 3.1), d’un module d’analyse lié à ce langage (section 3.2), d’un module de vision précoce (binarisation et extraction de segments) et d’un classifieur ayant des capacités de rejet (section 3.3). Ce générateur nous permet une adaptation rapide à un nouveau type de document. En effet, il faut simplement définir une nouvelle grammaire (à l’aide d’EPF) qui décrit le nouveau type de document et, si nécessaire, il faut effectuer un nouvel apprentissage du classifieur pour lui permettre de reconnaître de nouveaux symboles. Le système de reconnaissance adapté est alors automatiquement produit par compilation. Grâce à ce générateur, nous avons pu développer différents systèmes de reconnaissance en définissant uniquement une description du document.

3.5. Utilisations de la méthode DMOS Afin de valider l’aspect générique de la méthode DMOS, nous avons défini des descriptions EPF de différents types de documents. Ces descriptions ont pu ensuite produire, grâce au générateur DocRead, les systèmes de reconnaissance suivants. Reconnaissance de partitions musicales et de formules mathématiques Nous avons développé en premier une grammaire de la notation musicale afin de produire un système de reconnaissance de partitions musicales (Coüasnon et al., 1995b ; 1995c) (figure 2). Puis nous avons défini une description EPF de la notation

Accès par le contenu manuscrit

69

mathématique (Garcia et al., 2001) qui nous a permis de construire un système de reconnaissance de formules mathématiques imprimées et isolées (figure 2).

Figure 2. DMOS : reconnaissance de partitions musicales et reconnaissance de formules mathématiques

Reconnaissance de structures tabulaires Toujours dans un souci de validation de l’aspect générique de la méthode DMOS, nous avons défini une description grammaticale d’un tableau-formulaire constitué de filets (segments), quels que soient le nombre de colonnes, le nombre de lignes et la dimension des cases. Cette description comporte la définition de la plus grande structure tabulaire détectable dans un tableau et la définition du tableau lui-même. De manière récursive, à l’intérieur de chaque case, un nouveau tableau est recherché. Cette description récursive permet au système produit de reconnaître l’organisation hiérarchique d’un tableau-formulaire quel que soit son placement dans un document. Certains logiciels du commerce de reconnaissance de documents peuvent traiter des tableaux, cependant, ils ne produisent que la présentation graphique de ces tableaux et ne peuvent détecter leur organisation hiérarchique. Or, cette dernière est primordiale pour pouvoir structurer et accéder aux données contenues dans un tableau.

Figure 3. DMOS : reconnaissance de la structure hiérarchique d’un tableau

70

DN – 7/2003. Numérisation et patrimoine

La figure 3 affiche les cases détectées aux différents niveaux de profondeur de l’organisation hiérarchique du tableau. Il nous reste à compléter ce travail par une phase de validation et par la définition d’une structure résultat pouvant contenir l’organisation hiérarchique reconnue. Nous devons également travailler sur la reconnaissance de tableaux sans filets. Reconnaissance de terrain de tennis Nous avons également utilisé la méthode DMOS pour le traitement d’images vidéo. Ainsi, en définissant simplement une grammaire EPF d’une dizaine de règles, nous avons produit un système capable de détecter la position d’un terrain de tennis dans une image vidéo (figure 4). L’objectif de ces travaux est de permettre ensuite une indexation automatique de match de tennis en déterminant les phases de jeu grâce à la position des joueurs par rapport au terrain. Cette étude montre que la méthode DMOS peut être utilisée pour résoudre d’autres problèmes que le seul traitement de documents structurés.

Figure 4. DMOS : reconnaissance de terrain de tennis

4. Une plate-forme de gestion des annotations Nous avons défini une plate-forme sur internet pour consulter des images de documents d’archives, et pour y accéder par le contenu. Cette plate-forme propose une manière d’utiliser et de gérer les annotations automatiques et les annotations collectives.

4.1. Travaux existants Les travaux que l’on rencontre dans la littérature sur les annotations sont principalement centrés sur XML et RDF (Ressource Description Framework). RDF (RDF, 1999) est une base pour traiter les métadonnées et permet l’interopérabilité entre les applications qui échangent des données sur le web. Les métadonnées en RDF peuvent être utilisées dans de nombreuses applications. Par exemple, il est possible d’effectuer des annotations sur des documents XML.

Accès par le contenu manuscrit

71

Annotea (Kahan et al., 2001) est un projet du W3C pour les annotations partagées. Des annotations peuvent être des commentaires, des notes, des explications ou toute autre remarque pouvant être attachée à n’importe quel document ou partie de document se trouvant sur le web, sans modifier celui-ci. Lorsqu’un utilisateur consulte un document, il peut récupérer depuis un ou plusieurs serveurs l’ensemble des annotations associées au document et constater ainsi ce que les autres lecteurs en pensent. Dans le projet Annotea, un schéma RDF d’annotation a été défini pour décrire les annotations comme des métadonnées et X-Pointer est utilisé pour localiser les annotations dans le document annoté. Ce principe est bien adapté pour associer des informations à un endroit précis dans un document XML. Sur une image, cette méthode ne fonctionne plus alors que nous avons besoin de la même fonctionnalité : pouvoir associer une annotation à un endroit précis de l’image. Photo-RDF (Photo-RDF, 2002) est un projet pour décrire et retrouver des images numériques grâce à des métadonnées en RDF. Des schémas RDF ont été définis ou utilisés pour associer différentes informations aux photos : titre, date, appareil photo, focale… Le problème de ce Photo-RDF est qu’il n’est pas possible d’y associer une position précise dans l’image, mais seulement l’image toute entière. Hunter et Zhan proposent d’inclure des métadonnées dans des fichiers PNG (Hunter et al., 1999). Les métadonnées sont également définies avec RDF. Dans ce schéma, il est possible de définir une région dans l’image à l’aide d’un identificateur, un titre, un peu de texte et ses coordonnées. Même si ceci offre la possibilité d’associer une annotation à une position précise dans l’image, cette position n’est qu’un attribut d’une annotation textuelle. Or dans le cadre de l’accès aux documents, il est nécessaire de pouvoir considérer une position dans l’image comme une annotation au même titre qu’une annotation textuelle. Les annotations multivalentes (Phelps et al., 1997) offrent un cadre d’annotations de documents sous des formats très variés : images de documents numérisés, HTML, DVI… Cependant, une position dans l’image n’est toujours pas considérée comme une annotation à part entière. Ainsi, les loupes (utilisées pour des annotations de régions géométriques) offrent une manière de transformer le document se trouvant sous un rectangle, mais ne correspondent pas au rectangle luimême. De plus, il n’est pas possible d’associer par exemple plusieurs annotations textuelles à une même zone de l’image.

4.2. Présentation de la plate-forme Nous proposons donc une plate-forme pour l’accès par le contenu aux documents d’archives, qui puisse gérer au même niveau les annotations textuelles et les annotations géométriques. En outre, cette plate-forme est capable de créer des relations entre des annotations textuelles et géométriques pour préciser qu’une

72

DN – 7/2003. Numérisation et patrimoine

information textuelle se trouve dans une zone de l’image du document. Comme plusieurs informations textuelles (ou plusieurs interprétations) peuvent se trouver dans la même zone de l’image, il est primordial de pouvoir représenter autant de liens que nécessaire entre des annotations textuelles et géométriques. De manière complémentaire, une annotation textuelle peut être associée à différentes zones d’une ou plusieurs pages de documents, soit une ou plusieurs images. Il n’est donc pas possible de stocker les annotations dans le fichier image. Elles doivent être stockées de manière externe comme cela est fait dans Annotea pour les documents XML. Afin de permettre l’accès aux documents à un public le plus large possible, cette plate-forme doit pouvoir être utilisée dans un navigateur internet. Nous avons décidé de développer la plate-forme selon une architecture classique : un serveur de servlet (Tomcat) accédant à une base de données relationnelle (PostGreSQL) qui stocke l’ensemble des annotations. Les servlet Java envoient les images et les annotations à une applet (fonctionnant dans un navigateur) pour notamment les visualiser. Nous avons choisi d’utiliser XML et RDF pour importer et exporter les annotations de la base. Afin d’être le plus générique possible pour l’accès par le contenu aux documents d’archives, nous considérons qu’une annotation correspond à la plus petite information pouvant être ajoutée indépendamment, de manière automatique par reconnaissance de document ou de manière manuelle par un lecteur. Cette plus petite information peut être une annotation textuelle non structurée (un nom, une date…) ou bien une annotation géométrique non structurée (un rectangle, un polygone…). Ces annotations peuvent ensuite être structurées logiquement (par exemple un acte de naissance contient un nom, une date, un lieu…) ou physiquement (un registre est constitué de doubles pages contenant deux pages…). Une ou plusieurs annotations textuelles peuvent être associées à une ou plusieurs annotations géométriques. Nous proposons donc de considérer une annotation (géométrique ou textuelle) comme étant constituée des informations suivantes : [ ; ; ; ; ; ; ; ]

où le est choisi parmi l’ensemble des types autorisés dans une DTD adaptée aux types de documents annotés par la base. Les peuvent être un nom, une date, les coordonnées d’un rectangle… Le s’incrémente lorsqu’un lecteur, différent du créateur confirme cette annotation. Afin de pouvoir, par exemple, représenter qu’une annotation de structure logique (comme un acte de naissance) peut être liée à trois annotations géométriques (des rectangles) sur trois pages (images) consécutives, il est nécessaire de stocker les liens entre les annotations avec les informations suivantes : [ ; ; ; ]

Accès par le contenu manuscrit

73

Grâce à cette représentation des annotations et à la plate-forme, un utilisateur peut, sur un navigateur internet, feuilleter les images des pages de documents d’archives. Lorsqu’une page est affichée, l’ensemble des annotations associées sont présentées par l’interface de consultation : les annotations géométriques sont dessinées sur l’image, les annotations textuelles sont représentées par des onglets pour les nœuds de la structure d’annotations (acte de mariage par exemple) et par des champs éditables pour les feuilles (nom, date…) (figure 6). Le lecteur peut également consulter les annotations, ajouter ou modifier une annotation (s’il a le droit de le faire) au cours de sa lecture, mais il est limité par la structure d’annotations définie par la DTD associée au type de documents consultés. Ce système peut également stocker différentes interprétations si un lecteur n’est pas d’accord avec celles existantes. Une recherche structurée ou plein texte est possible sur l’ensemble des annotations quelle que soit la manière dont elles ont été produites : automatiquement ou manuellement. Nous présentons dans la section suivante des exemples d’utilisation de cette plate-forme sur différents types de documents d’archives. Nous montrons l’intérêt des annotations automatiques et la complémentarité des annotations automatiques et manuelles.

5. Exemples d’application à différents documents d’archives 5.1. Registres paroissiaux et d’état civil Ces travaux ont été réalisées en collaboration avec les archives départementales d’Ille-et-Vilaine et les archives départementales de la Mayenne, avec le soutien des régions Bretagne et Pays de la Loire dans le cadre d’un projet Mégalis.

Figure 5. DMOS : annotations automatiques sur des registres paroissiaux et d’état civil, détection des pages

74

DN – 7/2003. Numérisation et patrimoine

Annotations automatiques Sur ces documents (figure 5), il est particulièrement difficile de produire automatiquement des annotations car la structure est très faible voire inexistante et l’écriture manuscrite est souvent de très mauvaise qualité. Les documents sont numérisés en double page. Nous avons donc défini une grammaire EPF décrivant la notion de page. Grâce à la méthode DMOS et au générateur de systèmes de reconnaissance de documents structurés, nous avons pu produire par compilation un système de reconnaissance capable de détecter la position de chaque page et de produire automatiquement les annotations géométriques correspondantes. Un premier test a été effectué sur 1 407 images de doubles pages : aucune erreur ne s’est produite. Grâce à ces annotations, alors que les images sont en double page (donc non lisibles sur un écran en pleine largeur), un lecteur peut feuilleter de manière très confortable un registre page par page avec un zoom automatique adapté à la largeur de page et donc lisible sans zoom supplémentaire.

Figure 6. Plate-forme de gestion des annotations sur les registres d’état civil : annotations automatiques (pages) et annotations collectives (actes)

Accès par le contenu manuscrit

75

Annotations collectives En s’appuyant sur ces annotations géométriques automatiques (pages), des annotations collectives peuvent être ajoutées par les lecteurs (figure 6) comme par exemple le type d’acte (naissance, mariage…) ou une mention marginale… Ensuite, pour chacune de ces annotations, un ensemble de sous-annotations autorisées est défini. Par exemple, pour un acte de naissance, on pourra trouver le nom et prénom de l’enfant, la date de naissance, les noms et prénoms de la mère… L’acte peut être associé à une annotation géométrique (un rectangle par exemple) définissant sa position dans l’image, ou bien être simplement associé à l’annotation automatique page. Bien entendu, il n’y a aucune obligation pour le lecteur de remplir tous les champs d’un acte. Une démonstration en ligne de cette plate-forme sur les registres d’état civil et paroissiaux d’une commune d’Ille-et-Vilaine et d’une commune de la Mayenne est disponible à l’adresse http://imadoc-ar.irisa.fr

5.2. Registres matricules Ces registres matricules sont des registres de formulaires d’incorporation militaire du XIXe siècle. Ces documents sont constitués à partir de formulaires préimprimés. La structure de base de chaque fiche est stable sur une quarantaine d’années, en revanche, la taille de chaque case peut varier d’une année sur l’autre (déplacement de 1 à 2 cm). En outre, ces registres militaires contiennent dans certaines cases des informations médicales protégées pendant 150 ans, ce qui empêche de les mettre encore actuellement à disposition du public.

Figure 7. Registres matricules : formulaire normal, deux formulaires avec retombes, structure à reconnaître

76

DN – 7/2003. Numérisation et patrimoine

Ces documents présentent un certain nombre de défauts : la numérisation introduit de petites rotations ; le papier présente une certaine transparence, le verso est donc partiellement visible ; les fiches ont été endommagées, déchirées, recollées, tachées ; des tampons viennent perturber l’aspect visuel de la page ; et surtout, en raison de la guerre de 1914, certaines cases se sont avérées trop petites à l’usage. Les militaires ont donc collé de petites feuilles annexes (paperolles ou retombes) qui masquent largement la structure du document (figure 7 ci-dessus). Ces travaux ont commencé en collaboration avec les archives départementales de la Mayenne, avec les soutiens du ministère de la culture et de la communication et des régions Bretagne et Pays de la Loire, et se poursuivent avec les archives départementales des Yvelines avec le soutien du conseil général des Yvelines. Annotations automatiques L’objectif est de pouvoir localiser précisément la position des différentes cases du formulaire afin de détecter l’emplacement de certains champs manuscrits et l’emplacement des cases susceptibles de contenir des informations médicales. De nombreuses méthodes ont été développées pour reconnaître des structures tabulaires (Lopresti et al., 2000). Quelques méthodes utilisent une détection bas niveau de points spécifiques comme les croisements, les coins… Cependant, ces techniques ne peuvent gérer correctement les filets partiellement effacés. Xingyuan (Xingyuan et al., 1999) a proposé un système plus robuste mais qui ne peut, en revanche, fonctionner lorsque certaines parties de la structure sont masquées. En outre, nous n’avons pu trouver de résultats dans la littérature évoquant des formulaires anciens, altérés ou partiellement masqués. Nous avons donc construit la description des fiches au moyen d’une grammaire EPF en inspectant quelques fiches issues de quatre registres. Cette grammaire s’appuie sur l’axe central du formulaire. Elle débute ainsi : formulaireMilitaire ::= axeCental && (cadreExterieur ## ensembleDesCases).

Nous avons ensuite défini le cadre extérieur en nous basant uniquement sur ses quatre coins afin d’accepter des ruptures dans les filets de ce cadre, puis nous avons complété la grammaire par la description de chaque case placée par rapport à l’axe central : ensembleDesCases ::= (AT(gaucheNiveau1) && caseNom ## AT(droiteNiveau1) && caseNumeroMatricule ## AT(droiteNiveau2) && caseClasse ## ... ).

Accès par le contenu manuscrit

77

Grâce à cette unique description et à DocRead, nous avons produit un système de reconnaissance capable de traiter l’ensemble des registres. Ce système produit en sortie des annotations automatiques sous la forme d’une description de la structure avec la localisation précise des cases. Il peut également signaler qu’il a été incapable de reconnaître la structure dans la page à analyser en expliquant la raison de l’échec. Nous avons traité l’ensemble des registres de 1878 à 1900 des archives de la Mayenne, soit 60 223 pages réparties dans 140 registres. Les formulaires ayant des retombes ont été numérisés plusieurs fois afin de conserver les informations sous les retombes. Pour les 60 223 pages, la numérisation a produit 76 986 images. La grammaire construite en étudiant quatre registres étant suffisamment souple dans sa définition, il n’a pas été nécessaire d’effectuer des modifications pour absorber les variations de format du formulaire. Le traitement des documents s’est effectué en deux phases : le rejet automatique des pages dans lesquelles la structure n’est pas présente (images non traitables), puis la vérification de la cohérence des dimensions des cases d’un même registre.

Figure 8. DMOS : annotations automatiques sur les registres matricules : rejet pour mauvais centrage à la numérisation, formulaire reconnu, sa structure et découpage automatique de la partie publique

L’objectif est d’obtenir au moins une image pour laquelle la structure a été reconnue pour chacune des 60 223 pages. Sur ces 60 223 pages, 239 pages ont été considérées comme non traitables (environ 0,4 %). Il s’agit effectivement de pages mal numérisées ou trop abîmées (figure 8). Nous pouvons mentionner qu’à ce niveau du traitement, le système n’a produit aucun faux rejet. En effet, aucune des 239 images n’aurait pu être traitée manuellement. Le système détecte la structure permettant d’effectuer une séparation entre la partie publique et la partie médicale protégée, afin de pouvoir rendre ces documents accessibles au public (figure 8). Nous considérons que la structure est correcte si les

78

DN – 7/2003. Numérisation et patrimoine

filets des cases demandées sont localisés au millimètre près. Dans ce contexte, le taux de reconnaissance sur les 59 984 pages restantes est de 99,6 %, même en présence de retombes et avec un taux d’erreur nul (0 %). Il est important de noter que dans tous les cas, même avec un taux de reconnaissance si élevé, le système n’a pas produit de fausse reconnaissance. Ceci est primordial dans un contexte industriel dans lequel il devient impossible d’effectuer une détection manuelle des erreurs restantes dans les images reconnues puisque des centaines de milliers de pages peuvent être traitées. Le traitement d’une page en niveau de gris à 200 dpi (2 000 x 3 000) nécessite environ 18s (6s de traitement d’image et 12s d’analyse) sur un Sun SunBlade 100. À partir de la détection de la structure du formulaire, nous produisons automatiquement des annotations géométriques (polygones pour chaque case) et des annotations textuelles (le nom de la case). Ces annotations permettent, entre autres, le masquage des cases non publiques sur ces registres militaires. Ceci rend possible leur mise à disposition du public sans attendre les 150 ans qu’impose la loi, et de démasquer automatiquement au fur et à mesure que les 150 ans s’écouleront. Ainsi, les images des registres matricules de la Mayenne ont pu être mis en ligne sur le site http://www.cg53.fr/Fr/Archives/ (suivre Archives en ligne, puis Conscrits de la Mayenne), après un découpage automatique de la partie publique et une indexation manuelle sur le nom effectuée par les archives départementales de la Mayenne. En outre, cette structure, grâce à un placement précis, permet d’envisager des travaux sur la reconnaissance de certains champs manuscrits, afin d’éviter cette phase d’indexation manuelle beaucoup trop fastidieuse et coûteuse. Ces travaux sont en cours, en collaboration avec les archives départementales des Yvelines. L’objectif est de produire automatiquement des annotations sur les noms manuscrits afin de permettre à un lecteur d’accéder automatiquement, à partir du nom manuscrit, à l’image du document le contenant. Ainsi, le lecteur peut saisir une requête (un patronyme) et le système sélectionne automatiquement les images contenant ce patronyme sans qu’il y ait eu auparavant une seule indexation manuelle (figure 9). Ce système est capable de fonctionner sans dictionnaire, ce qui est indispensable vu la diversité des patronymes. Les premiers résultats présentés dans (Camillerapp et al., 2004) permettent, par exemple, de sélectionner un patronyme dans un registre en moins d’un dixième de seconde. Cet accès par le contenu manuscrit sera mis en place en salle de lecture et sur le site internet des archives des Yvelines après l’inauguration de leur nouveau bâtiment. 35 000 pages de registres matricules seront dans un premier temps accessibles par le contenu manuscrit (patronyme). Une seconde phase permettra de tester la production automatique d’annotations sur 350 000 pages de registres matricules.

Accès par le contenu manuscrit

79

Figure 9. Plate-forme d’annotation intégrant l’accès automatique par le patronyme manuscrit dans les registres militaires. La requête est « lepage » parmi 494 images (donc 494 noms). Les réponses du système sont présentées dans la partie supérieure (deux « Lepage » ont été trouvés dans le registre). La partie inférieure présente un des documents complets sélectionné depuis une imagette, qui peut ensuite être annoté par le lecteur s’il le souhaite

Annotations collectives Avec la modification de la DTD définissant les types d’annotations, il est possible de choisir ceux qui pourront être utilisés sur ces registres matricules. Ainsi, par exemple, la case contenant des informations d’état civil, ou la case décrivant la personne pourra être annotée collectivement par les lecteurs. Les annotations automatiques permettent de zoomer naturellement sur une case afin de la rendre lisible en pleine largeur pour pouvoir y associer plus facilement des annotations textuelles. Toutes ces annotations pourront ensuite être utilisées lors d’une requête faite par un autre lecteur.

80

DN – 7/2003. Numérisation et patrimoine

5.3. Décrets de naturalisation Ces travaux sont réalisés en collaboration avec le Centre historique des archives nationales, afin de permettre l’accès du public aux images des décrets de naturalisation de la fin du XIXe et du début du XXe siècle. En effet, ce sont des documents uniques qui sont les seuls à pouvoir justifier de la nationalité française de certaines personnes. Un décret contient en moyenne une dizaine de pages, généralement manuscrites, organisées en paragraphes, où chaque paragraphe concerne la naturalisation d’une seule personne. En outre, le patronyme de la personne concernée est placé en début de paragraphe. La recherche d’une personne dans ce type de document est difficile car il faut feuilleter l’ensemble des décrets. Il n’existe pas de table récapitulative permettant de savoir pour un patronyme donné quel est le décret qui le concerne. Or la demande du public est très forte pour retrouver une personne dans l’ensemble de ces décrets, et la constitution manuelle de tables récapitulatives n’est pas envisageable car trop fastidieuse et trop coûteuse. Annotations automatiques Par rapport aux registres matricules, la structure est beaucoup plus faible puisque constituée uniquement par l’organisation en paragraphe de l’écriture manuscrite. Grâce à la généricité de la méthode DMOS, il a été possible de définir une grammaire EPF décrivant l’organisation de ces documents en lignes de texte manuscrit, paragraphes et colonnes, en utilisant uniquement les composantes connexes calculées dans l’image. Cette description a permis par compilation de produire un système de reconnaissance capable de détecter la position du nom et d’un numéro de dossier (figure 10). A partir de la structure XML produite, par transformation avec XSLT, le système génère une page XML contenant les imagettes du numéro de dossier et du nom, présentées sous forme de tableau. Ceci permet de feuilleter beaucoup plus rapidement un ensemble de décrets pour retrouver une personne et d’accéder à la page la concernant (figure 10). À partir de cette structure, il reste à produire des annotations géométriques. Les premiers tests ont porté sur 234 pages de décrets, qui contiennent 1 918 noms ou numéros. Seul un numéro n’a pas été détecté, ce qui représente un taux de détection des noms ou numéros de plus de 99,9 %. En revanche, le système a produit 203 fausses reconnaissances de noms ou numéros soit 10,6 %. Ces fausses détections ne sont pas très gênantes dans ce contexte applicatif, puisque l’utilisateur aura simplement un peu plus d’imagettes à consulter. Pour diminuer ces fausses détections il faudrait être capable de reconnaître les inscriptions manuscrites.

Accès par le contenu manuscrit

81

Nous avons montré ainsi que la méthode DMOS pouvait également être utilisée sur des documents ayant une structure plus faible sans présence de filets, et contenant uniquement du manuscrit.

Figure 10. DMOS : annotations automatiques sur des décrets de naturalisation. À gauche : position des numéros de dossier et des noms détectés. À droite : tableau d’imagettes pour accélérer la consultation

Annotations collectives Grâce à la modification de la DTD associée à la plate-forme pour définir les types d’annotations autorisées, le lecteur, après avoir feuilleté les décrets par imagette de nom grâce aux annotations automatiques, peut annoter collectivement sur l’image de la page, le nom, le numéro de dossier, la date et lieu de naissance… L’intérêt pour le lecteur d’annoter est non seulement de contribuer à la collectivité, mais aussi de pouvoir retrouver plus tard, par une simple requête, la page du document qu’il cherchait.

6. Conclusion Nous avons présenté dans cet article, une plate-forme pour accéder par le contenu à des documents d’archives contenant des informations manuscrites. Pour permettre cet accès, il est nécessaire de produire des annotations. Nous avons montré que les annotations pour l’accès par le contenu aux documents d’archives peuvent être géométriques ou textuelles. La plate-forme que nous proposons présente l’intérêt de gérer des annotations produites de deux manières

82

DN – 7/2003. Numérisation et patrimoine

complémentaires : automatiquement grâce à la reconnaissance de documents et collectivement, grâce à l’aide des lecteurs au cours de leur consultation. Les différents documents (registres paroissiaux et d’état civil, registres matricules et décrets de naturalisation) sur lesquels nous avons présenté la plateforme d’annotations, montrent l’importance de définir des systèmes génériques de reconnaissance de documents. Il est en effet impensable d’avoir à redéfinir un nouveau système de reconnaissance pour chaque nouveau type de document. Grâce à la méthode DMOS, nous avons pu produire de nouveaux systèmes de reconnaissance adaptés avec un minimum de temps d’adaptation. Nous avions simplement à définir une description du type de document à l’aide du langage EPF pour obtenir, par compilation, un nouveau système de reconnaissance. La méthode DMOS a pu notamment être testée à grande échelle sur 60 000 pages de registres matricules. En outre, la méthode DMOS a pu être utilisée aussi bien sur des documents structurés comme les registres matricules que sur des documents faiblement structurés comme les décrets de naturalisation. La plate-forme d’annotations et la complémentarité des annotations automatiques et collectives sont importantes pour permettre un accès par le contenu à des documents manuscrits, même s’ils sont difficiles à lire. En fonction de la complexité du document, la partie annotation automatique est plus ou moins importante.

Remerciements Les auteurs tiennent à remercier le ministère de la Culture et de la communication, les régions Bretagne et Pays de la Loire, le Centre historique des archives nationales, les archives départementales de la Mayenne, les archives départementales d’Ille-et-Vilaine, les archives départementales des Yvelines et le conseil général des Yvelines, pour leurs soutien et collaboration dans ces différents travaux de recherches.

7. Bibliographie Anquetil E., Coüasnon B., Dambreville F., « A symbol classifier able to reject wrong shapes for document recognition systems », Atul K. Chhabra and Dov Dori editors, Graphics Recognition, Recent Advance, vol. 1941, Lecture Notes in Computer Science, Springer, 2000, p. 209-218. Camillerapp J., Pasquer L., Coüasnon B., « Indexation automatique de formulaires anciens par reconnaissance du patronyme manuscrit », 14e Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle, Toulouse, France, janvier 2004.

Accès par le contenu manuscrit

83

Coüasnon B., Brisset P., Stéphan I., « Using Logic Programming Languages For Optical Music Recognition », International Conference on the Practical Application of Prolog, Paris, France, avril 1995(a), p. 115-134. Coüasnon B., Camillerapp J., « A way to separate knowledge from program in structured document analysis : application to optical music recognition », ICDAR International Conference on Document Analysis and Recognition, vol. 2, Montréal, Canada, août 1995(b), p. 1092-1097. Coüasnon B., Retif B., « Using a grammar for a reliable full score recognition system », International Computer Music Conference, Banff, Canada, septembre 1995(c), p. 187-194. Coüasnon B., « Dmos: A generic document recognition method, application to an automatic generator of musical scores, mathematical formulae and table structures recognition systems », ICDAR International Conference on Document Analysis and Recognition, Seattle, USA, septembre 2001, p. 215–220. Coüasnon B., Camillerapp J., « Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques », Document Numérique, vol. 6, n° 1-2, 2002, p. 129-144. Garcia P., Coüasnon B., « Using a generic document recognition method for mathematical formulae recognition », Actes du congrès GREC, IAPR, International Workshop on Graphics Recognition, Kingston, Canada, septembre 2001. Hunter J., Zhan Z., « An indexing and querying system for online images based on the png format and embedded metadata », In Proc. of the ARLIS/ANZ Conference, Brisbane, Autralia, septembre 1999. Kahan J., Koivunen M.R., Prud’Hommeaux E., Swick R.R.. (2001), « Annotea: An open rdf infrastructure for shared web annotations », In Proc. of the WWW10 International Conference, Hong Kong, mai 2001. Le Bourgeois F., Emptoz H., Trinh E., Duong J., « Networking digital document images », ICDAR International Conference on Document Analysis and Recognition, Seattle, USA, Sep 2001, p. 379-383. Mühlberger G., « Automated digitisation of printed material for everyone: The metadata engine project », RLG DigiNews, 6(3), 2002. Lopresti D., Nagy G., « A tabular survey of automated table processing », Atul K. Chhabra and Dov Dori editors, Graphics Recognition, Recent Advance, vol. 1941, Lecture Notes in Computer Science, Springer, 2000, p. 93-120. Photo-RDF, Describing, retrieving photos using RDF, and HTTP. W3C Note, April 2002. http://www.w3.org/TR/photo-rdf/ Poulain d’Andecy V., Camillerapp J., Leplumey I., « Analyse de partitions musicales », Traitement du signal 12(6), 1996, p. 653-661. Resource Description Framework (RDF)(1999). Model and syntax specification. W3C Recommandation, février 1999. http://www.w3.org/TR/REC-rdfsyntax/.

84

DN – 7/2003. Numérisation et patrimoine

Phelps T.A., Wilensky R., « Multivalent annotations », In Proc. of the First European Conference on Research and Advanced Technology for Digital Libraries, Pisa, Italy, 1997. Xingyuan L., Doerman D., Oh W., Gao W., T» A robust method for unknown forms analysis », ICDAR International Conference on Document Analysis and Recognition, p. 531-534, Bangalore, India, septembre 1999.