Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals tweets die via Twitter verzameld zijn, chats die via publieke … [Lees meer...] overSoNaR Nieuwe Media Corpus
Productpagina
SoNaR Klein-corpus Commercieel
Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, semantische rollen en de annotatie van spatiĆ«le en temporele relaties. Alle annotaties werden manueel geverifieerd. The SoNaR Klein corpus Commercial is a text … [Lees meer...] overSoNaR Klein-corpus Commercieel
SoNaR Groot-corpus Commercieel
Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd. Dit taalmateriaal wordt standaard als download aangeboden en dan worden er … [Lees meer...] overSoNaR Groot-corpus Commercieel
SoNaR-corpus
Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1. SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd. SoNaR-1 is … [Lees meer...] overSoNaR-corpus
Siswati Genre Classification Corpus
Contains training and testing data for genre classification for Siswati. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overSiswati Genre Classification Corpus