Yandex lærte nevrale nettverk å tyde arkivposter med kompleks stavemåte
Miscellanea / / April 03, 2023
Historiske manuskripter, som er vanskelige for en person å analysere, blir nesten umiddelbart konvertert av kunstig intelligens til trykt tekst.
Yandex har lansert en ny tjeneste kalt Archive Search, som bruker nevrale nettverk for å dechiffrere arkivposter med kompleks pre-revolusjonær stavemåte.
Tjenesten gir tilgang til mer enn 2,5 millioner sider med historiske dokumenter med tekstutskrifter. Algoritmen, bygget på grunnlag av et optisk tegngjenkjenningssystem, tar hensyn til særegenhetene ved håndskrift, gjenkjenner bokstaver som har mistet sin relevans, og forstår den spesielle strukturen til arkivdokumenter.
Selskapets spesialister trente det nevrale nettverket på en datamatrise med hundretusenvis av håndskrevne linjer fra ekte tekster fra 1700- og 1800-tallet og titalls millioner genererte eksempler.
Manuskripter som er vanskelige for en uforberedt person å analysere, blir Yandex-teknologi nesten umiddelbart til trykt tekst. Takket være dette, i databasen til tjenesten, kan du raskt finne dokumenter med omtale av etternavn, lokalitet eller andre ord.
«Søk i arkiv» vil øke effektiviteten i arbeidet til historikere, sosiologer, demografer, slektsforskere og vil hjelpe de som leter etter informasjon om familien sin.
Det første fondet som ble presentert i tjenesten var hovedarkivet i Moskva - det var på materialene utviklerne trente det nevrale nettverket. Databasen inneholder også dokumenter fra arkivene til Orenburg- og Novgorod-regionene. Over tid vil antall lagringer og tilgjengelige skannede filer øke.
Du kan søke etter materialer fra det 18. - tidlige 20. århundre, som er mest populært blant brukere. Dette er menighetsbøker, bekjennelsesblader og revisjonseventyr med resultater fra folketellingen. Dokumenter finner du i katalogen eller gjennom søkefeltet. Det er filtre etter år, arkiver, fond og varelager.
Ved siden av skanningen av hver side vises en linje-for-linje-dekoding laget av nevrale nettverk. Hvis du holder musepekeren over ønsket fragment, vil det umiddelbart bli uthevet på den digitale kopien.