Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. Voor commercieel gebruik zie de commerciële productpagina. The … [Lees meer...] overSumNL-samenvattingencorpus
Productpagina
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan de … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals tweets die via Twitter verzameld zijn, chats die via publieke … [Lees meer...] overSoNaR Nieuwe Media Corpus
SoNaR Klein-corpus Commercieel
Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, semantische rollen en de annotatie van spatiële en temporele relaties. Alle annotaties werden manueel geverifieerd. The SoNaR Klein corpus Commercial is a text … [Lees meer...] overSoNaR Klein-corpus Commercieel
SoNaR Groot-corpus Commercieel
Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd. Dit taalmateriaal wordt standaard als download aangeboden en dan worden er … [Lees meer...] overSoNaR Groot-corpus Commercieel