Från digitala bilder till sökbar data
Hanna Strandberg
Allt mer arkivmaterial digitaliseras och finns tillgängligt i olika söktjänster, i Finland till exempel i söktjänsten Finna där kan man hitta material från arkiv, bibliotek och museer. Speciellt gamla fotografier är mycket populära sökobjekt, men mycket av det äldre materialet består av handskrivna dokument som inte är lika lättillgängliga som ett svartvitt fotografi. Liksom fotografierna har de handskrivna dokumenten digitaliserats till bilder som kan hittas med hjälp av olika sökvillkor, som tidsbegränsningar, ämnesord och platsmarkörer, men själva textinnehållet har ej varit sökbart. Det håller på att ske en förändring i och med textigenkänning, där man med hjälp av artificiell intelligens skapar programvara som kan känna igen och omvandla handskriven text till maskinskriven form.
I Finland har Riksarkivet varit ledande i att utveckla program för att känna igen handskriven text. Det här har möjliggjorts i och med att Riksarkivet varit en del av det EU-finansierade READ-projektet (Recognition and Enrichment of Archival Documents). Projektet pågick i tre år och avslutades i juni 2019. Projektet involverade 14 europeiska samarbetspartner med bakgrund i artificiell intelligens, datavetenskap och humaniora. Nyckeln till att lyckas med projektet var samarbetet mellan dessa discipliner. För att kunna skapa modeller som kan tolka handskriven text behövs både teknisk kunskap, träningsmaterial bestående av gamla handskrifter och experter som kan transkribera äldre handskrifter. READ-projektet har fått fortsättning i form av ett kooperativ som upprätthåller och utvecklar tekniken som skapats under projektet.
Hur sker detta då? Med hjälp av maskininlärning. I Riksarkivets fall har man valt att koncentrera sig på renoverade domböcker från 1800-talet. Materialet har en del utmaningar i form av att det är skapat av flera skribenter under en lång tidsperiod, vilket betyder att handstilen varierar en hel del. Materialet som man inledningsvis valt att processa består av cirka 600 000 digitala bilder. För att skapa en textigenkänningsmodell har cirka 2000 sidor av materialet transkriberats för att skapa träningsdata. På basis av träningsdatan skapas en textigenkänningsmodell. Mer i detalj går processen till på följande sätt. Bilderna för träningsdatan väljs ut. De digitala bilderna behandlas i programmet Transkribus och bilderna blir kopplade med metadata. Till exempel blir varje textrad numrerad och kopplas ihop med motsvarande radnummer i en transkription. Genom att jämföra den digitaliserade bilden och transkriptionen lär sig datorn att känna igen bokstäver och skapar till slut en textigenkänningsmodell på basen av träningsdatan. Modellen kan sedan användas för att textigenkänna hela samlingen.
Arbetsprocessen kan beskrivas som cirkulär snarare än linjär, där man skapar mer träningsdata efter hand att arbetet framskrider. I början av processen vet man sällan hur mycket data som behövs för att skapa en fungerande modell. De bästa modellerna har en felmarginal på cirka fem procent. Med hjälp av textigenkänning kan samlingar också bli sökbara, i sökningen utnyttjas då Keyword Spotting teknik. Läs mera om tekniken som gör sökningen möjlig på Riksarkivets blogg. Det här ger nya möjligheter för användningen av gamla handskrivna dokument och kan öppna upp materialet till nya användare.
Under READ-projektet har anmälningsärenden ur de renoverade domböckerna från 1800-talet gjorts sökbara. De innehåller uppteckningar om lagfarts-, intecknings-, förmynderskapsärenden och äktenskapsförord och kan till exempel användas av släktforskare. För tillfället är största delen av det tillgängliga materialet på svenska. Du kan själv testa att göra sökningar i de finska domböckerna i Riksarkivets söktjänst. Tjänsten är fortfarande under arbete.
Länkar
Read coop https://readcoop.eu/
Programvaran Transkribus https://transkribus.eu/Transkribus/
Riksarkivets blogg, processbeskrivning (uppdateras inte längre) https://makingamodernarchive.blogspot.com/
Pingback: LABORATORIUM 1/2020 | Laboratorium för folk och kultur