Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica en frequentielijsten behoren ook tot … [Lees meer...] overCorpus Gesproken Nederlands (CGN)
Niet-commercieel
COREA-coreferentiecorpus
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. The COREA coreference corpus (approximately 150,000 words) consists of Dutch texts in … [Lees meer...] overCOREA-coreferentiecorpus
Children’s Oral Reading Corpus (CHOREC)
Het CHOREC-spraakcorpus (Children's Oral Reading Corpus) is een verzameling van 130 uur spraak, afkomstig van 400 Vlaamse kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen. In het corpus zijn specifieke annotaties zoals leesstrategie en soorten leesfouten opgenomen. The CHOREC speech corpus (Children's Oral Reading Corpus) is a … [Lees meer...] overChildren’s Oral Reading Corpus (CHOREC)
INT Historische Woordenlijst
De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. Zie voor een evaluatie van het gebruik van het lexicon in OCR dit paper. The INT Historische Woordenlijst consists of 2 lists, each containing about 500,000 historical word forms for the purpose … [Lees meer...] overINT Historische Woordenlijst
Etymologisch Woordenboek van het Nederlands (EWN)
Het Etymologisch Woordenboek van het Nederlands (EWN) is een wetenschappelijk etymologisch woordenboek voor het moderne bovenregionale Nederlands. Dat betekent dat er in principe geen verouderde en dialectische trefwoorden zijn opgenomen, hoe interessant die etymologisch gezien ook kunnen zijn. Voor de basisselectie van de trefwoorden in het EWN is uitgegaan van Van Dale Groot … [Lees meer...] overEtymologisch Woordenboek van het Nederlands (EWN)