Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. Productdetails Annotaties Alphabetic list, one word(token) per line, Text, ANSI (Unicode) Dataformaat txt Documentatie Project report on … [Lees meer...] overTshivenda Custom Dictionary for Government Domain
Productpagina
Taalportaal (Online)
Taalportaal is een uitgebreide grammatica van het Nederlands, Fries en Afrikaans beschreven in het Engels. Het portaal bevat een lijst van taalkundige termen en een taalkundige bibliografie. Taalportaal wordt regelmatig geüpdatet. Taalportaal is a comprehensive grammar of Dutch, Frisian and Afrikaans written in English. The portal contains a list of linguistic terms and a … [Lees meer...] overTaalportaal (Online)
SumNL-samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. Voor commercieel gebruik zie de commerciële productpagina. The … [Lees meer...] overSumNL-samenvattingencorpus
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan de … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals tweets die via Twitter verzameld zijn, chats die via publieke … [Lees meer...] overSoNaR Nieuwe Media Corpus