Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van … [Lees meer...] overNAMES Corpus
Niet-commercieel
CGN-annotaties
De CGN-annotaties bevatten het volledig geannoteerde Corpus Gesproken Nederlands (CGN) in getranscribeerde vorm en ook Corex, de corpusexploratiesoftware die bij het CGN hoort. The CGN Annotations contain the data from the CGN (Corpus of Spoken Dutch) minus the sound data. Productdetails Besturingssysteem Linux, … [Lees meer...] overCGN-annotaties
Annotated Corpora for Term Extraction Research (ACTER)
ACTER is een handmatig geannoteerde dataset voor termextractie, die drie talen omvat (Engels, Frans en Nederlands), en vier domeinen (corruptie, dressuur, hartfalen en windenergie). Deze versie is vervangen door een nieuwere: Versie 1.5 ACTER is a manually annotated dataset for term extraction, covering 3 languages (English, French, and Dutch), and 4 domains (corruption, … [Lees meer...] overAnnotated Corpora for Term Extraction Research (ACTER)