DuELME is een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies. Expressies met hetzelfde syntactische patroon zijn gegroepeerd in zogenoemde equivalence classes, wat het mogelijk maakt om het lexicon met minimale handmatige inspanning te integreren in een NLP-systeem. Het lexicon is ontwikkeld in het kader van het IRME-project. DuELME is a lexicon containing over … [Lees meer...] overDuELME
Niet-commercieel
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank
Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. The DAESO corpus is a parallel … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank
D-TUNA-corpus
Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus. The D-TUNA corpus consists of 2400 written and (transcribed) … [Lees meer...] overD-TUNA-corpus
Corpus Pathologische en Normale Spraak (COPAS)
Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De … [Lees meer...] overCorpus Pathologische en Normale Spraak (COPAS)
Corpus Middelnederlands (Data)
Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse (literaire) rijm- en prozateksten uit de periode 1300-1550. Deze zijn in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands). Voor commerciële toepassingen, neem contact op met servicedesk@ivdnt.org. The Corpus Middle Dutch is a collection of over 350 Middle Dutch (literary) … [Lees meer...] overCorpus Middelnederlands (Data)