Dit corpus bevat 57 ondertitelde colleges van de Universiteit van Nederland (UvN). Ondertitels werden toegevoegd aan bestaande video-opnames van colleges van de UvN. In tegenstelling tot gewone ondertitels zijn de ondertitels die in dit project werden gegenereerd een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten … [Lees meer...] overCorpus Ondertitelde UvN-colleges (COUC)
Corpus
Boarnsterhim Corpus (BHC)
Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. Deze versie is vervangen door een nieuwere: versie 2.0. The … [Lees meer...] overBoarnsterhim Corpus (BHC)
Wablieft-corpus
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de … [Lees meer...] overWablieft-corpus
Xitsonga Genre Classification Corpus
Contains training and testing data for genre classification for Xitsonga. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overXitsonga Genre Classification Corpus
Wablieft-corpus
Waarschuwing: Dit is niet de meest actuele versie van het Wablieft-corpus. De nieuwste versie is: Wablieft-corpus 1.2. Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is … [Lees meer...] overWablieft-corpus