Dit corpus bevat 57 ondertitelde colleges van de Universiteit van Nederland (UvN). Ondertitels werden toegevoegd aan bestaande video-opnames van colleges van de UvN. In tegenstelling tot gewone ondertitels zijn de ondertitels die in dit project werden gegenereerd een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten … [Lees meer...] overCorpus Ondertitelde UvN-colleges (COUC)
Corpus
Boarnsterhim Corpus (BHC)
Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Er wordt gewerkt aan een nieuwe versie. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl). Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel … [Lees meer...] overBoarnsterhim Corpus (BHC)
Wablieft-corpus
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de … [Lees meer...] overWablieft-corpus
Xitsonga Genre Classification Corpus
Contains training and testing data for genre classification for Xitsonga. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overXitsonga Genre Classification Corpus
Wablieft-corpus
Waarschuwing: Dit is niet de meest actuele versie van het Wablieft-corpus. De nieuwste versie is: Wablieft-corpus 1.2. Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is … [Lees meer...] overWablieft-corpus