Contains training and testing data for genre classification for Sesotho. Productdetails Annotaties UTF8 , Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overSesotho Genre Classification Corpus
Corpus
Paco-MT Parallelle Corpora
Tijdens het STEVIN-project PaCo-MT werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd. Paco-MT Parallelle Corpora: Two (existing) parallel corpora provided with automatically generated syntactic annotation and node … [Lees meer...] overPaco-MT Parallelle Corpora
Moroccorp
Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden. De data wordt aangeboden als een tekstbestand van 82.4 Mb. Waarschuwing: Dit is niet de meest actuele versie van Moroccorp. De nieuwste versie is: Moroccorp 1.1. Moroccorp is a corpus of computer-mediated communication in … [Lees meer...] overMoroccorp
Meertalige Ondertiteldata 2BDutch
De ondertiteldata behorend bij de Nederlandstalige video’s op de website www.2BDutch.nl , vormt het product Meertalige Ondertiteldata 2BDutch. Op de website van 2BDutch staan video's met ondertitelingsmogelijkheid in verschillende talen. Met deze video's kunnen studenten Nederlands van alle niveaus hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren.De … [Lees meer...] overMeertalige Ondertiteldata 2BDutch
Lwazi Xitsonga ASR Corpus
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Productdetails Aantal uren spraak 520 min Annotaties Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav Dataformaat Speech Documentatie Lwazi Project Final Report "Development of … [Lees meer...] overLwazi Xitsonga ASR Corpus