Het DPC-corpus (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel - het Nederlands is zowel brontaal als doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op zinsniveau en verrijkt … [Lees meer...] overDutch Parallel Corpus (DPC)
Niet-commercieel
DuOMAn Subjectivity Lexicon
Het DuOMAn Subjectivity Lexicon bevat ongeveer 9000 werkwoorden, bijwoorden, substantieven en adjectieven waarvan aangegeven werd of ze een (zeer) negatieve, een neutrale of een (zeer) positieve gevoelswaarde hebben. Voor commercieel gebruik zie de commerciële productpagina. The DuOMAn Subjectivity Lexicon contains about 9,000 verbs, adverbs, substantives and adjectives … [Lees meer...] overDuOMAn Subjectivity Lexicon
DuELME
DuELME is een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies. Expressies met hetzelfde syntactische patroon zijn gegroepeerd in zogenoemde equivalence classes, wat het mogelijk maakt om het lexicon met minimale handmatige inspanning te integreren in een NLP-systeem. Het lexicon is ontwikkeld in het kader van het IRME-project. Voor commercieel gebruik zie de … [Lees meer...] overDuELME
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank
Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. Voor commercieel gebruik zie de … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank
D-TUNA-corpus
Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus. The D-TUNA corpus consists of 2400 written and (transcribed) … [Lees meer...] overD-TUNA-corpus