Met Loghi kun je oude documenten, zoals dit 18e-eeuws handschrift uit het Drents Archief, transcriberen. Foto: DVHN
De Koninklijke Nederlandse Akademie van Wetenschappen heeft software ontwikkeld die handgeschreven teksten uit archieven heel nauwkeurig digitaal leesbaar maakt. Wat betekent dat voor onderzoekers?
Het is de droom van menig wetenschapper en amateurhistoricus die geregeld in archieven rondsnuffelt: een machine die de soms moeilijk leesbare teksten snel voor je ontcijfert. Het Humanities Cluster van de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) heeft de afgelopen jaren samen met het Nationaal Archief gewerkt aan software die precies deze wens in vervulling laat gaan.
Hanenpoten lezen
Nieuwe software met de naam Loghi kan transcripties maken van getypte en gedrukte teksten, maar ook van bijvoorbeeld moeilijk leesbare handschriften uit de zeventiende eeuw. Wanneer de software getraind is op een specifieke collectie met dezelfde lettertype -of hetzelfde handschrift- kan de foutmarge teruggebracht worden tot onder de 4 procent.
Iedereen ter wereld kan gratis gebruikmaken van Loghi via de website GitHub. Zit je soms in het Drents Archief? Dan zou je de oude documenten die voor je liggen kunnen scannen en laten transcriberen. Dat kan best handig zijn, zeker als je van die oude hanenpoten ziet staan.
„Je kunt hiermee inderdaad stukken lezen die anders misschien een groot raadsel voor je zouden zijn”, zegt Jos Arends. De archivaris van het Drents Archief vraagt zich tegelijkertijd af wie hier in de praktijk gebruik van gaat maken. „De meeste mensen die informatie opvragen zijn met een beetje hulp vaak heel goed in staat om de stukken in ons archief goed te lezen. Ook de oude documenten met die lastige hanenpoten.”
‘Dat zou te veel geld kosten’
Nee, bij het vergroten van de historische interesse of kennis bij het grote publiek gaat Loghi waarschijnlijk niet helpen, denkt Arends. Toch zijn verschillende instanties en commerciële partijen al heel lang druk bezig om transcriptiesoftware verder te ontwikkelen.
„Er zijn allerlei historische projecten te verzinnen waarbinnen het voor onderzoekers heel nuttig kan zijn om deze transcriptie-software in te zetten”, zegt de archivaris. „Je kunt hiermee heel snel grote datasets creëren, om gericht en per onderwerp of per woord onderzoek te doen.”
Een foutmarge van 4 procent is volgens Arends daarbij enorm goed, maar het Drents Archief werkt zelf nog niet met programma’s die oude documenten digitaal uitschrijven. Medewerkers en vrijwilligers zijn vooral druk om voor alle archieven een compleet digitaal overzicht te maken.
„Alle documenten ook nog volledig digitaliseren en laten transcriberen zou veel te veel werk zijn voor een klein archief”, weet Arends. „Want ook met 96 procent is nog altijd 1 op de 25 woorden niet goed en moet je alles alsnog controleren. Dat zou te veel tijd en geld kosten. Geld dat we beter anders kunnen besteden.”