De Dutch Idiom Database: Native Speakers is een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatische uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid, herkenbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van … [Lees meer...] overDutch Idiom Database: Native Speakers (DID-NS) Commercieel
Commercieel
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel
Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. The DAESO corpus is a parallel … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel
COREA-coreferentiecorpus Commercieel
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. The COREA coreference corpus (approximately 150,000 words) consists of Dutch texts in … [Lees meer...] overCOREA-coreferentiecorpus Commercieel
NAMES Corpus Commercieel
Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van … [Lees meer...] overNAMES Corpus Commercieel
CHN N-grams Commercieel
N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten tijdschriften, journaaluitzendingen en juridisch materiaal. CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende … [Lees meer...] overCHN N-grams Commercieel