Het WAI-NOT-corpus bestaat uit 874 krantenartikels, afkomstig uit de WAI-NOT-krant. De artikels zijn opgesteld in eenvoudig te lezen Nederlands en zijn afkomstig uit de periode 2009-2021. Het corpus bevat ongeveer 75.000 woorden. De artikels zijn beschikbaar als xml-bestanden met daarin een titel, de artikeltekst en een datum. Die datum kan de oorspronkelijke publicatiedatum … [Lees meer...] overWAI-NOT Corpus
Corpus
Lassy Klein-corpus
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus
Brieven als Buit (Online)
Ongeveer 40.000 Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw hebben eeuwenlang onder het stof gelegen in Britse archieven. Deze zogeheten Sailing Letters zijn niet alleen vanuit het buitenland door zeelieden en anderen naar het thuisfront verstuurd. Ook vanuit Nederland bleven echtgenotes, ouders, kinderen en andere familieleden met briefverkeer in … [Lees meer...] overBrieven als Buit (Online)
Brieven als Buit-2 (Online)
Approximately 40,000 Dutch letters from the second half of the 17th to the early 19th century have been gathering dust for centuries in British archives. They were sent home by sailors and others from abroad but also vice versa by those staying behind who needed to keep in touch with their loved ones. Many letters did not reach their destinations: they were taken as loot by … [Lees meer...] overBrieven als Buit-2 (Online)
Corpus Ondertitelde UVN-Colleges (COUC)
This corpus contains 57 (2020-07-16) subtitled lectures from the Universiteit van Nederland (UVN). Subtitles were added to existing video recordings of lectures of the UVN. Unlike common subtitles, the subtitles generated in this project are a nearly 100% literal representation of the speech as spoken by the people in the recordings. They contain exact orthographic … [Lees meer...] overCorpus Ondertitelde UVN-Colleges (COUC)