Georg Müller kirjutas 1601. aastal „rawo ninck roimo kaas“. Arusaamatu? Selleks, et 17. ja 18. sajandi eestikeelsed tekstid oleks praegustele huvilistele mõistetavad, peame need tekstid märgendama. Kõige lihtsamal juhul tähendab märgendamine tekstisõnale tänapäevakeelse märksõna lisamist. Mülleri rawo on rahu , ninck on ning , roimo on rõõm ja kaas on kaasaütleva käände lõpp -ga , nii et rawo ninck roimo kaas tähendab ’rahu ning rõõmuga’. Üksikasjalisemat märgendust vajavad keeleteadlased. Tänapäeval on moes mahukatele andmetele tuginevad uuringud. Keeleteaduses tähendab see suurte keelekogude ehk keelekorpuste kasutamist. Hea korpus on põhjalikult märgendatud: igale tekstisõnale on lisaks tema märksõnale määratud ka sõnaliik, morfoloogiline vorm jpm vajalikku keelelist infot. Tänapäeva kirjakeele korpused sisaldavad sadu miljoneid tekstisõnu ja märgendatakse neid automaatselt. Automaatne märgendus on võimalik, sest me teame iga kirjakeelse sõna igat kirjakeelset muutevormi ja
Noppeid ja mõtteid vanadest eestikeelsetest tekstidest