Avaleht Projekt

Minu Juured

Platvorm, mis muudab Rahvusarhiivi käsikirjalised hingeloendid masinloetavaks ja teeb ajaloolised perekonnalood kõigile kättesaadavaks.

Miks see projekt?

Aastatel 1826–1835 said Liivimaa ja Eestimaa kubermangu talupojad esimest korda ametlikud perekonnanimesid. Need nimed — mis on tänaste eestlaste perekonnanimede alus — on kirjas tuhandetes käsikirjalistes revisjonilehtedes Eesti Ajalooarhiivis.

Probleem: need dokumendid on kirjutatud 19. sajandi saksa kursiivis (Kurrent), raskesti loetavad ja kättesaadavad ainult üksikute lehekülgedena SAAGA digiarhiivis. Seni on nende süstemaatiline digitaliseerimine olnud liiga töömahukas.

Minu Juured kasutab AI-põhist käsikirjatuvastust, et muuta see protsess suurusjärgu võrra kiiremaks: masin loeb dokumendi, inimene kontrollib tulemust.

Kuidas see töötab

Revisjonilehest andmebaasi kirjeni

1

Mõisa valik

Admin valib mõisa ja laeb üles revisjonilehe PDF-i otse SAAGA digiarhiivist. Soovitav on eelnevalt laadida ka mõisa tähestikuline register, mis toimib nimede kontrollnimekirjana.

2

AI käsikirjatuvastus

AI-mudel loeb käsikirjalist dokumenti, tuvastab iga perekonna: perekonnanimi, talu, kõik isikud koos vanuste ja suhetega. Tulemus on struktureeritud andmed.

3

Inimene kontrollib

Admin vaatab parsitud andmed üle, parandab võimalikud vead ja kinnitab salvestamise. Algdokument jääb alati kirjele juurde.

4

Avalik leht

Iga perekonnanimi saab oma lehe: AI-genereeritud narratiiv eesti keeles, isikute nimekiri, viide algdokumendile ja asukoht ajaloolisel kaardil.

Andmemudel

Kuidas andmed on omavahel seotud

Geograafia

counties
name, slug
1 → N
parishes
county_id
name, slug, lat, lng
1 → N
manors
parish_id
name, slug, type
archive_reference
cover_image_url
known_surnames JSON

Perekond & dokument

surnames
surname, surname_normalized
1 → N
family_records
surname_id, manor_id, parish_id
origin_farm, origin_farm_number
origin_story AI narrative
origin_document_ref
year_assigned
confidence_level
1 → N
carriers
family_record_id
person_id → persons
first_name, gender
age_in_document
birth_year_approx
patronymic
role, is_primary
archive_sources
family_record_id
reference_code
page, document_year
source_image_url
saaga_url

Isiku tuvastamine faas 3

persons
first_name, gender
birth_year_approx
primary_surname_id
farm_name pre-surname identity
← carriers.person_id

Sama isik eri dokumentides

Carrier = isiku ühekordne ilmumine ühes dokumendis. Person = tegelik inimene, kelle juurde koonduvad kõik tema esinemised eri revisjonides (1816, 1826, 1833...).

See võimaldab jälgida inimese eluteed läbi aastakümnete ja ehitada sugupuid.

person_relationships
person_id, related_person_id
type parent / child / spouse

Mastaap

Vaherevisjonide andmestik arvudes

~660 mõisat Liivimaa kubermangus
~13 000 revisjonilehte
~72 000 perekonda
~300 000 isikut

Tehniline stack

Kaasaegsed tehnoloogiad, skaleeruv arhitektuur

Platform

  • Laravel (PHP), Livewire, MySQL
  • Tailwind CSS, Alpine.js
  • Leaflet.js, Maa-amet WMS ajalooline kaart

AI pipeline

  • Anthropic Claude API — dokumendi visioon
  • Extended thinking käsikirja analüüsiks
  • Narratiivi genereerimine eesti keeles

Andmed

  • PDF-dokumendid SAAGA digiarhiivist
  • Nimede kontrollnimekiri tähestikuregistrist
  • Algdokumendid alati kirjele kaasas

Arenguteekond

Proof of concept → tööplatvorm → ajalooline sugupuuandmebaas

FAAS 1

Proof of Concept

Prototüüp mitme mõisa andmetega. AI parsimise pipeline toimib, admin paneel olemas, avalik veeb näitab tulemusi.

AI loeb revisjonilehte PDF-ist
Narratiiv ja isikute andmed automaatselt
Nimede kontrollnimekiri mõisa registrist
Avalik sirvimine maakond → mõis → nimi
Ajalooline kaart (Maa-amet 1880)
Kõik Liivimaa kihelkonnad andmebaasis

FAAS 2

Tööplatvorm

Täielik admin süsteem, mis võimaldab süstemaatilist andmesisestust. Optimeeritud täpsus, minimaalne inimkorrektuur.

Batch-import: terve mõis korraga
Usaldusväärsuse tasemed ja kinnitus
Ümberskannimine ja kirjete liitmine
SAAGA otselink integratsioon
Kõik Liivimaa 1826 vaherevisjonid
Eestimaa kubermangu 1834/35 revisjonid

FAAS 3

Ajalooline sugupuuandmebaas

Laienemine üle 1826/1835 revisjonide: varasemad ja hilisemad hingeloendid. Sama isik eri dokumentides.

Varasemad revisjonid (1795, 1811, 1816)
Hilisemad revisjonid (1833, 1850, 1858)
Isikute tuvastamine üle dokumentide
Perekondade areng läbi aastakümnete
Geni.com genealoogia integratsioon
Avalik API ja crowdsource parandused