Het WAI-NOT-corpus bestaat uit 874 krantenartikels, afkomstig uit de WAI-NOT-krant. De artikels zijn opgesteld in eenvoudig te lezen Nederlands en zijn afkomstig uit de periode 2009-2021. Het corpus bevat ongeveer 75.000 woorden. De artikels zijn beschikbaar als xml-bestanden met daarin een titel, de artikeltekst en een datum. Die datum kan de oorspronkelijke publicatiedatum … [Lees meer...] overWAI-NOT Corpus
Niet-commercieel
Lassy Klein-corpus
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus
Medische Pilot (MedPilot)
De Medische Pilot is een bij wijze van experiment ingerichte database waarin een klein deel van de medische woordschat beschreven wordt op verschillende niveaus, van wetenschappelijk tot toegankelijk voor laaggeletterden, en waarin ook verschillen tussen Vlaamse en Nederlandse termen worden getoond. 152 indextermen zijn volledig bewerkt en beschikbaar voor export. Daarvan zijn … [Lees meer...] overMedische Pilot (MedPilot)
Hoger Onderwijs Terminologie in Nederland en Vlaanderen (HOTNeV)
Een terminologische database met Nederlandse en Vlaamse onderwijstermen. De aanzet voor dit project vormde de sterke toename van onderwijstermen, gegenereerd door het onderwijsbeleid van de EU en geïmplementeerd door het Tuning Project. HOTNeV beoogt een tweeledig doel. Waar tot op heden Nederlandstalige equivalenten voor de Engelstalige terminologie vooral ad hoc werden … [Lees meer...] overHoger Onderwijs Terminologie in Nederland en Vlaanderen (HOTNeV)
Corpus Ondertitelde UVN-Colleges (COUC)
This corpus contains 57 (2020-07-16) subtitled lectures from the Universiteit van Nederland (UVN). Subtitles were added to existing video recordings of lectures of the UVN. Unlike common subtitles, the subtitles generated in this project are a nearly 100% literal representation of the speech as spoken by the people in the recordings. They contain exact orthographic … [Lees meer...] overCorpus Ondertitelde UVN-Colleges (COUC)