Het IFA Corpus is een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk. Het corpus bevat in totaal zo'n 50.000 woorden die zijn gesegmenteerd op foneemniveau. The IFA Corpus is a phonetic research database consisting of Dutch speech data from 8 individuals; 4 male and 4 female. The corpus contains a total … [Lees meer...] overIFA Corpus
Corpus
Eindhoven Corpus
Het Eindhoven Corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. Deze versie is vervangen door een nieuwere: versie 2.5. A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976. This version has been replaced by a … [Lees meer...] overEindhoven Corpus
Dutch Parallel Corpus (DPC)
Het DPC-corpus (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel - het Nederlands is zowel brontaal als doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op zinsniveau en verrijkt … [Lees meer...] overDutch Parallel Corpus (DPC)
Dutch Parallel Corpus (DPC) Commercieel
De commerciële versie van het DPC-corpus 1.0 (Dutch Parallel Corpus) bevat 8,77 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel – het Nederlands is zowel als brontaal en doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op … [Lees meer...] overDutch Parallel Corpus (DPC) Commercieel
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank
Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. Voor commercieel gebruik zie de … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank