Un nouvel algorithme recherche des documents historiques pour découvrir des personnes remarquables

vieux journal

Crédit : Pixabay/CC0 domaine public

Les vieux journaux offrent une fenêtre sur notre passé, et un nouvel algorithme co-développé par un chercheur de l’Université de Buffalo School of Management aide à transformer ces documents historiques en données utiles et consultables.

Publié dans Decision Support Systems, l’algorithme peut trouver et classer les noms des personnes par ordre d’importance à partir des résultats produits par la reconnaissance optique de caractères (OCR), la méthode informatisée de conversion de documents numérisés en texte souvent désordonné.

« C’est un fait connu que lorsque le logiciel OCR est exécuté, très souvent le texte est brouillé », explique Haimonti Dutta, Ph.D., professeur adjoint de sciences et systèmes de gestion à l’UB School of Management. « Avec les vieux journaux, livres et magazines, des problèmes peuvent survenir à cause d’une mauvaise qualité d’encre, de papier froissé ou déchiré, ou même de mises en page inhabituelles auxquelles le logiciel ne s’attend pas. »

Pour développer l’algorithme, les chercheurs se sont associés à la New York Public Library (NYPL) et ont analysé plus de 14 000 articles du journal new-yorkais The Sun publiés en novembre et décembre 1894. La NYPL a scanné plus de 200 000 pages de journaux dans le cadre de Chronicling America, une initiative du National Endowment for Humanities et de la Library of Congress qui travaille au développement d’une base de données consultable en ligne des journaux historiques de 1777 à 1963.

Leur algorithme classe les noms des personnes par importance en fonction d’un certain nombre d’attributs, notamment le contexte du nom, le titre avant le nom, la longueur de l’article et la fréquence à laquelle le nom a été mentionné dans un article.

L’algorithme apprend ces attributs uniquement à partir du texte – il ne s’appuie pas sur des sources d’informations externes telles que Wikipedia ou d’autres bases de connaissances. Mais comme le texte OCR est brouillé, il ne peut pas déterminer l’efficacité de ces attributs pour classer les noms des personnes. Les chercheurs ont donc utilisé des mesures statistiques pour modéliser les nombreux attributs de données, ce qui a permis de fournir le classement souhaité des noms.

Les chercheurs ont utilisé deux ensembles d’articles historiques pour tester leur algorithme : un ensemble était le texte brut produit à partir du logiciel OCR, l’autre ensemble avait été nettoyé manuellement par des écoliers de la ville de New York, qui utilisent les articles pour rédiger des biographies de personnalités locales. , notables de l’époque.

Comparé aux versions nettoyées des histoires, l’algorithme de classement est capable de trier les noms des personnes avec un degré élevé de précision, même à partir du texte OCR bruyant.

Dutta dit que leur processus a des implications de grande envergure pour découvrir des personnes importantes à travers l’histoire.

« Nous avons récemment utilisé cette technique sur la littérature afro-américaine de la guerre civile pour en savoir plus sur les personnes importantes à l’époque de l’esclavage », explique Dutta. « À l’avenir, nous allons étendre la technique pour examiner les relations entre les gens et construire les réseaux sociaux du passé. »


Reconnaissance optique de la musique avec réseau de neurones convolutifs


Plus d’information:
Haimonti Dutta et al, PNRank : classement non supervisé des entités de nom de personne à partir de texte OCR bruyant, Systèmes d’aide à la décision (2021). DOI : 10.1016/j.dss.2021.113662

Fourni par l’Université de Buffalo

Citation: Un nouvel algorithme recherche des documents historiques pour découvrir des personnes remarquables (2021, 14 octobre) récupéré le 14 octobre 2021 à partir de https://techxplore.com/news/2021-10-algorithm-historic-documents-noteworthy-people.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.