Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. The DAESO corpus is a parallel … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank
Corpus
D-TUNA-corpus
Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus. The D-TUNA corpus consists of 2400 written and (transcribed) … [Lees meer...] overD-TUNA-corpus
Corpus Pathologische en Normale Spraak (COPAS)
Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De … [Lees meer...] overCorpus Pathologische en Normale Spraak (COPAS)
Corpus Middelnederlands (Data)
Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse (literaire) rijm- en prozateksten uit de periode 1300-1550. Deze zijn in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands). Voor commerciële toepassingen, neem contact op met servicedesk@ivdnt.org. The Corpus Middle Dutch is a collection of over 350 Middle Dutch (literary) … [Lees meer...] overCorpus Middelnederlands (Data)
Corpus Gysseling (Data)
Het Corpus Gysseling dat hier ter beschikking wordt gesteld is de verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. Het is de digitale uitgave, verrijkt met woordsoort en lemma, van het dertiende-eeuwse materiaal uit het Corpus van Middelnederlandse teksten (tot en met het jaar 1300), uitgegeven in … [Lees meer...] overCorpus Gysseling (Data)