Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. A corpus of Dutch texts with annotated coreference relations. Dit product is … [Lees meer...] overCOREA-coreferentiecorpus Commercieel
Commercieel
NAMES Corpus Commercieel
Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van … [Lees meer...] overNAMES Corpus Commercieel
CHN N-grams Commercieel
N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten tijdschriften, journaaluitzendingen en juridisch materiaal. CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende … [Lees meer...] overCHN N-grams Commercieel
CGN-annotaties Commercieel
De CGN-annotaties bevatten het volledig geannoteerde Corpus Gesproken Nederlands (CGN) in getranscribeerde vorm en ook Corex, de corpusexploratiesoftware die bij het CGN hoort. The CGN Annotations contain the data from the CGN (Corpus of Spoken Dutch) minus the sound data. Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. … [Lees meer...] overCGN-annotaties Commercieel
BasiScript-lexicon Commercieel
BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool. Het corpus bevat longitudinale data verzameld over drie achtereenvolgende jaren (najaar 2012 - voorjaar 2015). BasiScript Corpus is ontworpen om zowel de educatieve diversiteit (type school) als geografische regio's van Nederland te kunnen … [Lees meer...] overBasiScript-lexicon Commercieel