Was passiert, wenn Datenwissenschaftler drei Jahrhunderte Robinson Crusoe durchbrechen?

Anonim

Seit Daniel Defoes Schiffswrack "Robinson Crusoe" vor fast 300 Jahren zum ersten Mal veröffentlicht wurde, wurden Tausende von Editionen und Spinoff-Versionen in Hunderten von Sprachen veröffentlicht.

Ein Forschungsteam unter der Leitung von Grant Glass, Ph.D. Englisch - Übersetzung - Linguee als Übersetzung von "im vergleich" vorschlagen Linguee - Wörterbuch Deutsch - Englisch an der Universität von North Carolina in Chapel Hill, wollte wissen, wie sich die Geschichte verändert hat, als sie verschiedene Editionen, Nachahmungen und Übersetzungen durchging und welche Teile die Zeit überdauert haben.

Sie alle in einem Tempo von einem Tag zu lesen, würde Jahre dauern. Stattdessen trainieren die Forscher Computer, um das für sie zu tun.

In diesem Sommer nutzte das Team von Glass im Sommerforschungsprogramm Data + Computeralgorithmen und maschinelles Lernen, um 1.482 Volltext-Versionen von Robinson Crusoe aus Online-Archiven zu durchsuchen.

"Viele Male denken wir an ein Buch in Stein gemeißelt", sagte Glass. "Aber ein Projekt wie dieses zeigt dir, dass es chaotisch ist. Es gibt eine Menge Abweichungen."

"Wenn du ein Buch aufnimmst, ist es wichtig zu wissen, um was für eine Kopie es sich handelt, denn das kann deine Art beeinflussen, wie du über die Geschichte denkst", sagte Glass.

Nur die Texte in eine Form zu bringen, die ein Computer verarbeiten könne, sei der halbe Kampf gewesen, sagte Teammitglied Orgil Batzaya, ein Duke-Doppel-Major in Mathematik und Informatik.

Die Bücher wurden bereits gescannt und online gestellt, so dass die Studenten mithilfe von Software die Scans aus dem Internet per "Scraping" herunterladen konnten. Aber die gescannten Seiten alter gedruckter Bücher, von denen einige Flecken, Flecken oder abgenutzte Schriften hatten, zu verarbeiten und sie in ein maschinenlesbares Format umzuwandeln, erwies sich als kniffliger, als sie dachten.

Die Software bemühte sich, die seltsamen Schreibweisen ("geliefert", "gewünscht", "perswasions", "shore" oder "shoar") zu entschlüsseln, verschiedene Schriftarten zwischen Editionen und andere Macken.

Sonderzeichen, die nur für Schriften aus dem 18. Jahrhundert typisch sind, wie etwa die kuriose f-förmige Version des Buchstabens "s", lassen sogar Menschen mit einem geistigen Lispeln "diffunt" und "poffible" lesen.

Ihre ersten Versuche kamen mit Kauderwelsch. "Die resultierende optische Zeichenerkennung war völlig unbrauchbar", sagte Teammitglied und Duke senior Gabriel Guedes.

Auf einer Data + Poster-Session im August stellten Guedes, Batzaya und der Doppel-Major der Geschichte und Informatik Lucian Li ihre ersten Ergebnisse vor: eine Sammlung von bunten Streudiagrammen, Karten, Flussdiagrammen und Liniendiagrammen.

Guedes zeigte auf Cluster von Punkten in einem Netzwerkgraphen. "Hier sind die roten Ausgaben amerikanisch, die blauen Ausgaben kommen aus Großbritannien", sagte Guedes. "Der Netzwerkgraph erkennt die Ähnlichkeit zwischen all diesen Editionen und verklumpt sie."

Nachdem sie die gescannten Seiten in maschinenlesbare Texte umgewandelt hatten, fütterte das Team sie in einen maschinellen Lernalgorithmus, der die Ähnlichkeit zwischen Dokumenten misst.

Der Algorithmus nimmt Brocken von Texten - Sätze, Absätze, sogar ganze Romane - auf und wandelt sie in hochdimensionale Vektoren um.

Die Erstellung dieser numerischen Darstellung jedes Buches, so Guedes, machte es möglich, mathematische Operationen an ihnen durchzuführen. Sie addierten die Vektoren für jedes Buch, um ihre Summe zu finden, berechneten den Mittelwert und versuchten zu sehen, welche Ausgabe der "durchschnittlichen" Ausgabe am nächsten kam. Es stellte sich heraus, dass es eine Version von Robinson Crusoe war, die 1875 in Glasgow veröffentlicht wurde.

Sie analysierten auch die Wichtigkeit bestimmter Handlungspunkte, um die Nähe einer Ausgabe zur "durchschnittlichen" Ausgabe zu bestimmen: Was ist mit dem Moment, in dem Crusoe einen Fußabdruck im Sand entdeckt und erkennt, dass er nicht alleine ist? Oder die Zeit, in der Crusoe und Freitag, nachdem sie die Insel verlassen haben, hungrige Wölfe in den Pyrenäen bekämpfen?

Die Ergebnisse des Teams mögen diejenigen nerven, die nicht daran gewöhnt sind, 300 Jahre Veröffentlichung auf ein Balkendiagramm reduziert zu sehen. Aber indem man Computer benutzt, um Tausende von Büchern gleichzeitig zu vergleichen, sagen "Digital Humanities" Gelehrte, dass es möglich ist, groß angelegte Muster und Trends zu verfolgen, die Menschen, die sich um einzelne Bücher kümmern, nicht können.

"Das ist wirklich etwas, was nur ein Computer kann", sagte Guedes und zeigte auf eine Zeitrafferkarte, die zeigte, wie sich die Crusoe-Geschichte über den Globus ausbreitete, basierend auf Daten über den Ort und das Erscheinungsdatum von 15.000 Ausgaben.

"Es ist eine Art" Fernlesen ", sagte Guedes. "Sie nutzen diese enorme Menge an Informationen, um im Zeitverlauf Rückschlüsse auf die Veröffentlichungsgeschichte, die Bewegung von Ideen und das Wissen im Allgemeinen zu ziehen."

menu
menu