Het Corpus Gysseling dat hier ter beschikking wordt gesteld is de verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. Het is de digitale uitgave, verrijkt met woordsoort en lemma, van het dertiende-eeuwse materiaal uit het Corpus van Middelnederlandse teksten (tot en met het jaar 1300), uitgegeven in … [Lees meer...] overCorpus Gysseling (Data)
Niet-commercieel
Corpus Gesproken Nederlands (CGN)
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica en frequentielijsten behoren ook tot … [Lees meer...] overCorpus Gesproken Nederlands (CGN)
COREA-coreferentiecorpus
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. The COREA coreference corpus (approximately 150,000 words) consists of Dutch texts in … [Lees meer...] overCOREA-coreferentiecorpus
Children’s Oral Reading Corpus (CHOREC)
Het CHOREC-spraakcorpus (Children's Oral Reading Corpus) is een verzameling van 130 uur spraak, afkomstig van 400 Vlaamse kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen. In het corpus zijn specifieke annotaties zoals leesstrategie en soorten leesfouten opgenomen. The CHOREC speech corpus (Children's Oral Reading Corpus) is a … [Lees meer...] overChildren’s Oral Reading Corpus (CHOREC)
INT Historische Woordenlijst
De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. Zie voor een evaluatie van het gebruik van het lexicon in OCR dit paper. The INT Historische Woordenlijst consists of 2 lists, each containing about 500,000 historical word forms for the purpose … [Lees meer...] overINT Historische Woordenlijst