Contains training and testing data for genre classification for Tshivenda. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overTshivenda Genre Classification Corpus
Corpus
SumNL-samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. The SumNL-samenvattingencorpus is based on 30 clusters. Each cluster … [Lees meer...] overSumNL-samenvattingencorpus
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciĆ«le versie van dit corpus bevat een tweetal clusters minder dan de … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals tweets die via Twitter verzameld zijn, chats die via publieke … [Lees meer...] overSoNaR Nieuwe Media Corpus
SoNaR Klein-corpus Commercieel
Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, semantische rollen en de annotatie van spatiĆ«le en temporele relaties. Alle annotaties werden manueel geverifieerd. The SoNaR Klein corpus Commercial is a text … [Lees meer...] overSoNaR Klein-corpus Commercieel