Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd. Dit taalmateriaal wordt standaard als download aangeboden en dan worden er … [Lees meer...] overSoNaR Groot-corpus Commercieel
Corpus
SoNaR-corpus
Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1. SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd. SoNaR-1 is … [Lees meer...] overSoNaR-corpus
Siswati Genre Classification Corpus
Contains training and testing data for genre classification for Siswati. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overSiswati Genre Classification Corpus
Setswana Genre Classification Corpus
Contains training and testing data for genre classification for Setswana. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overSetswana Genre Classification Corpus
Sesotho sa Leboa Genre Classification Corpus
Contains training and testing data for genre classification for Sesotho sa Leboa. Productdetails Annotaties UTF8 , Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 … [Lees meer...] overSesotho sa Leboa Genre Classification Corpus