De commerciële versie van het DPC-corpus 1.0 (Dutch Parallel Corpus) bevat 8,77 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel – het Nederlands is zowel als brontaal en doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op … [Lees meer...] overDutch Parallel Corpus (DPC) Commercieel
Commercieel
DuELME Commercieel
DuELME is een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies. Expressies met hetzelfde syntactische patroon zijn gegroepeerd in zogenoemde equivalence classes, wat het mogelijk maakt om het lexicon met minimale handmatige inspanning te integreren in een NLP-systeem. Het lexicon is ontwikkeld in het kader van het IRME-project. DuELME is a lexicon with over 5,000 … [Lees meer...] overDuELME Commercieel
Corpus Gesproken Nederlands (CGN) Commercieel
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (o.a. syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de … [Lees meer...] overCorpus Gesproken Nederlands (CGN) Commercieel
CombiLex Commercieel
CombiLex is een lijst van woorden en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508. Combilex is a list of Dutch lemmas and word forms without further annotation. The … [Lees meer...] overCombiLex Commercieel
GiGaNT-Molex Commercieel
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaagse corpusteksten van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling. Versie 2.0 bevat nu 223.153 lemmata en 751.448 woordvormen met afbrekingen. The GiGaNT-Molex … [Lees meer...] overGiGaNT-Molex Commercieel