Contains training and testing data for genre classification for isiNdebele. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overisiNdebele Genre Classification Corpus
Productpagina
IFA Dialogue Video corpus
Het IFA Dialogue Video corpus corpus bestaat uit video- en geluidsopnamen van spontane dialogen tussen proefpersonen. Het bevat 24 video-opnames van spontane dialogen, waarvan er 20 zijn geannoteerd. 42 proefpersonen (14 mannelijk, 28 vrouwelijk) participeerden in dit onderzoek. The IFA Dialogue Video corpus consists of video and audio recordings of spontaneous dialogues … [Lees meer...] overIFA Dialogue Video corpus
IFA Corpus
Het IFA Corpus is een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk. Het corpus bevat in totaal zo'n 50.000 woorden die zijn gesegmenteerd op foneemniveau. A corpus for phonetic research consisting of speech data of 4 male and 4 female … [Lees meer...] overIFA Corpus
Frequentielijsten corpora
De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het Corpus Gesproken Nederlands, het Algemeen Nederlands Woordenboekcorpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus. Voor vrijwel elk van deze producten is er zowel een lemmafrequentielijst als een typefrequentielijst … [Lees meer...] overFrequentielijsten corpora
Eindhoven-corpus
Het Eindhoven-corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976. Productdetails Dataformaat txt Documentatie Gebruikershandleiding; Documentatie … [Lees meer...] overEindhoven-corpus