Carabela-Projekt: Künstliche Intelligenz, um die Geheimnisse der spanischen Geschichte zu enthüllen

Carabela-Projekt: Künstliche Intelligenz, um die Geheimnisse der spanischen Geschichte zu enthüllen

Künstliche Intelligenz (KI) und maschinelles Lernen (ML) im Dienste von Historikernzusammen mit Algorithmen, die Dokumente finden, die für die Geschichte Spaniens von großem Interesse sind. Dahinter steckt Carabela-Projekt, ein Projekt, das in den letzten zwei Jahren von Forschern der Universitat Politècnica de València (UPV) und des Zentrums für Unterwasserarchäologie des andalusischen Instituts für historisches Erbe entwickelt wurde.

In diesem Rahmen haben sie sich entwickelt und angewendet neue AI / ML-Techniken die den Zugriff auf den Inhalt von mehr als 130.000 Bildern aus dem Generalarchiv Indiens und dem Historischen Archiv der Provinz Cádiz ermöglichen. Das Projekt wurde vom Programm Aid for Scientific Research Teams der BBVA Foundation im Bereich Digital Humanities unterstützt.

„Mit diesen Techniken können wir jedes Grafikdokument mit der gleichen Geschwindigkeit wie eine Websuchmaschine verfolgen und bestimmte Wörter, Wortkombinationen, Phrasen usw. identifizieren. All dies dank statistischer Modelle, die wir anhand von Beispielen trainiert haben und die jetzt die großen Verbündeten für das Studium dieser Sammlungen in der Geschichte Spaniens sind. Dieselben Methoden können auch auf viele andere historische Dokumente angewendet werden “, betont Enrique Vidal, Forscher am PRHLT-Zentrum (Pattern Recognition and Human Language Technologies) des UPV.

Generalarchiv von Indien

Das Mittel des General Archive of the Indies Sie sind von außergewöhnlichem Interesse für das Studium der Geschichte Spaniens in Amerika - von den südlichen Vereinigten Staaten über Feuerland bis zu den Philippinen im 15. bis 19. Jahrhundert.

Handelt von Manuskripte im Zusammenhang mit spanischen Seereisen und Handel, deren Analyse nicht mit herkömmlichen OCR-Transkriptionstechniken durchgeführt werden kann - da sie für gedruckten Text bestimmt sind - oder mit spezifischen Techniken für Manuskriptmaterialien, da die Ergebnisse, die sie bei Anwendung auf diese historischen Texte bieten, zu ungenau sind.

"Carabela hat es uns ermöglicht, mit automatischen Lerntechniken, die es ermöglichen, Bilder von handgeschriebenem Text in großen Sammlungen historischer Dokumente zu indizieren, deren Erhaltungszustand und verschlungene Schreibstile es Menschen fast unmöglich machen, ihre Dokumente zu lesen", sagt Joan Andreu Sánchez, ebenfalls Forscher am PRHLT-UPV.

Diese Techniken sind in der Lage, die verschiedenen Arten von verwendeten Buchstaben zu identifizieren und zu unterscheiden in jedem Zeitraum, in dem die Dokumente datiert sind, und analysieren sogar Bilder, deren Qualität sehr gering ist.

Der Schlüssel ist in der Kapazität seiner Algorithmen um Modelle zu erhalten, die automatisch aus Beispielen "gelernt" werden.

„Solche Modelle erfordern eine relativ kleine Menge an Lerndaten, um sehr zufriedenstellende Ergebnisse zu erzielen. Diese Methoden ermöglichen eine zufriedenstellende Reaktion auf die Herausforderungen, die sich aus den Dokumenten selbst ergeben, wie z. B. Unterschiede in der Schreibweise, den Flecken oder der Bildqualität “, fügt Vidal hinzu.

In diesem Fall, Das Lernen wurde mit etwa 500 Seiten aus dem Archivo de Indias durchgeführt, die von Carlos Alonso und seinem Team von Spezialisten des Zentrums für Unterwasserarchäologie ausgewählt und transkribiert wurden.

Wracks und Australien

Caravel hat ans Licht gebracht Manuskriptinformationen über Wracks die aufgrund des großen historischen und kulturellen Reichtums ihres Inhalts ein archäologisches Erbe der ersten Größenordnung darstellen. "Carabela trägt damit auch dazu bei, die Plünderung des untergetauchten Erbes zu vermeiden", erklärt Joan Andreu Sánchez.

Aber zweifellos trat einer der überraschendsten Funde in diesen Fonds auf, als nach Begriffen im Zusammenhang mit Australien gesucht wurde, wie "Incognita Southern Land", a Brief aus dem frühen 18. Jahrhundert an König Philipp V..

„In diesem Brief des Jesuiten Andrés Serrano haben wir sehr genaue Hinweise auf den südlichen Kontinent aus dem Jahr 1705 entdeckt. lange bevor Captain James Cook 1770 seine Küste erreichte. Wenig bekannte Daten zur Geschichte Australiens, die wir jetzt durch die Anwendung von Indexierungs- und probabilistischen Suchtechniken entdecken, die in unserem Zentrum entwickelt wurden “, erklärt Enrique Vidal.

LESEN Sie, das Goldene Zeitalter und Transkribus

In diesem Sinne hat das PRHLT-Team am europäischen READ-Projekt teilgenommen, das untersucht und analysiert wurde Dokumente aus dem Goldenen Zeitalter der spanischen Literatur, unter ihnen Lope de Vega Manuskripte aus der Sammlung der Nationalbibliothek und Korrespondenz der Brüder Grimm aus dem Marburger Staatsarchiv.

Ebenfalls aus dem finnischen Nationalarchiv, von dem etwa 150.000 Seiten indexiert wurden, und in zukünftigen Projekten sollen rund 1 Million Seiten indexiert werden.

Ebenfalls, Im Rahmen des Projekts wurde Transkribus entwickelt, eine Softwareplattform, mit der Bilder alter Dokumente von großem historiografischen Wert mit Anmerkungen versehen werden können.

Transkribus wird hauptsächlich als Tool zur Generierung von Trainingsdaten verwendetda handschriftliche Texterkennungstechniken erfordern, dass Daten automatisch lernen. In naher Zukunft wird es weitere Funktionen enthalten, beispielsweise das automatische Modelltraining für andere Sprachen.

READ hat auch mit der Gründung einer europäischen Genossenschaft abgeschlossen, deren Gründungsmitglied der UPV ist und die die Transkribus-Software allen registrierten Benutzern zur Verfügung stellt.

Derzeit ist die Transkribus-Plattform Es hat mehr als 30.000 Benutzer aus der ganzen Welt, was es zu einem internationalen Nachschlagewerk für alle Historiker macht.


Video: Die Größte Manipulation Und Täuschung Des 18. Jahrhunderts