Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er … [Lees meer...] overLassy Groot-corpus Commercieel
Commercieel
JASMIN-spraakcorpus Commercieel
Het JASMIN-spraakcorpus is een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, woonachtig in Vlaanderen en Nederland. De spraakopnames bestaan uit voorgelezen teksten en mens-machinedialogen, en zijn verrijkt met verschillende annotatielagen. Het JASMIN-spraakcorpus is een aanvulling op het Corpus Gesproken Nederlands (CGN). The … [Lees meer...] overJASMIN-spraakcorpus Commercieel
Dutch Parallel Corpus (DPC) Commercieel
De commerciële versie van het DPC-corpus 1.0 (Dutch Parallel Corpus) bevat 8,77 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel – het Nederlands is zowel als brontaal en doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op … [Lees meer...] overDutch Parallel Corpus (DPC) Commercieel
DuELME Commercieel
DuELME is een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies. Expressies met hetzelfde syntactische patroon zijn gegroepeerd in zogenoemde equivalence classes, wat het mogelijk maakt om het lexicon met minimale handmatige inspanning te integreren in een NLP-systeem. Het lexicon is ontwikkeld in het kader van het IRME-project. DuELME is a lexicon containing over … [Lees meer...] overDuELME Commercieel
Corpus Gesproken Nederlands (CGN) Commercieel
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica en frequentielijsten behoren ook tot … [Lees meer...] overCorpus Gesproken Nederlands (CGN) Commercieel