Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, sematische rollen en de annotatie van spatiĆ«le en temporele relaties. Alle annotaties werden manueel geverifieerd. Dit product is gratis. Maar het is wel … [Lees meer...] overSoNaR Klein-corpus Commercieel
Productpagina
SoNaR Groot-corpus Commercieel
Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd. Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie … [Lees meer...] overSoNaR Groot-corpus Commercieel
SoNaR-corpus
Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1. SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd. SoNaR-1 is … [Lees meer...] overSoNaR-corpus
Siswati Genre Classification Corpus
Contains training and testing data for genre classification for Siswati. Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012) Eigenaar Trifonius Financier Department of Arts and Culture Licentiesoort Creative Commons Attribution 2.5 South … [Lees meer...] overSiswati Genre Classification Corpus
Siswati Custom Dictionary for Government Domain
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. Productdetails Annotaties Alphabetic list, one word(token) per line, Text, ANSI (Unicode) Dataformaat txt Documentatie Project report on … [Lees meer...] overSiswati Custom Dictionary for Government Domain