Yandex opetti hermoverkkoja tulkitsemaan arkistotietueita monimutkaisilla oikeinkirjoituksilla
Miscellanea / / April 03, 2023
Historialliset käsikirjoitukset, joita ihmisen on vaikea jäsentää, muunnetaan tekoälyllä lähes välittömästi painetuksi tekstiksi.
Yandex on julkaissut uuden palvelun nimeltä Arkistohaku, joka käyttää hermoverkkoja arkiston tietueiden tulkitsemiseen monimutkaisilla ennen vallankumousta edeltäneillä oikeinkirjoituksilla.
Palvelu tarjoaa pääsyn yli 2,5 miljoonalle sivulle historiallisia asiakirjoja tekstin transkriptioineen. Sen optisen merkintunnistusjärjestelmän pohjalta rakennettu algoritmi ottaa huomioon käsinkirjoituksen erityispiirteet, tunnistaa merkityksensä menettäneet kirjaimet ja ymmärtää arkistoasiakirjojen erityisrakenteen.
Yrityksen asiantuntijat kouluttivat hermoverkkoa satojen tuhansien käsinkirjoitettujen rivien tietojoukolla todellisista 1700-1800-luvun teksteistä ja kymmenistä miljoonista generoiduista esimerkeistä.
Käsikirjoitukset, joita valmistautumattoman henkilön on vaikea jäsentää, Yandex-tekniikka muuttuu melkein välittömästi painetuksi tekstiksi. Tämän ansiosta palvelun tietokannasta löydät nopeasti asiakirjoja, joissa on maininta sukunimestä, paikkakunnasta tai muista sanoista.
"Haku arkistoista" tehostaa historioitsijoiden, sosiologien, väestötieteilijöiden, sukututkijoiden työtä ja auttaa niitä, jotka etsivät tietoa perheestään.
Ensimmäinen palvelussa esitelty rahasto oli Moskovan pääarkisto – juuri sen materiaaleilla kehittäjät kouluttivat hermoverkkoa. Tietokanta sisältää myös asiakirjoja Orenburgin ja Novgorodin alueiden arkistoista. Ajan myötä tallennuspaikkojen ja käytettävissä olevien skannattujen tiedostojen määrä kasvaa.
Voit etsiä käyttäjien keskuudessa suosituimpia materiaaleja 1700-luvun alusta - 1900-luvun alkupuolelta. Näitä ovat seurakuntarekisterit, tunnustuslomakkeet ja tarkastuskertomukset väestölaskennan tuloksista. Asiakirjat löytyvät luettelosta tai hakupalkin kautta. Siellä on suodattimia vuosien, arkiston, rahastojen ja varastojen mukaan.
Jokaisen sivun skannauksen vieressä näkyy hermoverkkojen tekemä rivi riviltä dekoodaus. Jos viet hiiren halutun fragmentin päälle, se korostetaan välittömästi digitaalisessa kopiossa.