Contains training and testing data for genre classification for Xitsonga. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overXitsonga Genre Classification Corpus
Corpus
Wablieft-corpus
Waarschuwing: Dit is niet de meest actuele versie van het Wablieft-corpus. De nieuwste versie is: Wablieft-corpus 1.2. Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is … [Lees meer...] overWablieft-corpus
Tshivenda Genre Classification Corpus
Contains training and testing data for genre classification for Tshivenda. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overTshivenda Genre Classification Corpus
SumNL-samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. The SumNL-samenvattingencorpus is based on 30 clusters. Each cluster … [Lees meer...] overSumNL-samenvattingencorpus
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan de … [Lees meer...] overSumNL-samenvattingencorpus Commercieel