Corpus

Language of Leiden Corpus – LoL Online)

Het Language of Leiden Corpus (LoL) is een diachroon corpus van geschreven Nederlands dat bestaat uit tekstmateriaal met betrekking tot de stad Leiden uit verschillende sociale domeinen. Het corpus is opgezet om taalverandering in het Nederlands te bestuderen die het gevolg is van taalcontact met het Frans. Uniek aan dit corpus is dat het sociale domein als variabele is … [Lees meer...] overLanguage of Leiden Corpus – LoL Online)

Woordenlijst Nederlandse Taal (Online)

Op Woordenlijst.org vind je de Woordenlijst Nederlandse Taal: de lijst met de officiële spelling van het Nederlands. Het woordenbestand en de applicatie worden ontwikkeld en beheerd door het Instituut voor de Nederlandse Taal (INT) in opdracht van de Taalunie. In Nederland en Vlaanderen is de officiële spelling verplicht voor het onderwijs en de overheid. Het Comité van … [Lees meer...] overWoordenlijst Nederlandse Taal (Online)

Dutch C-CLAMP (Download)

The Dutch Corpus of Contemporary and late Modern Periodicals (Dutch C-CLAMP) is een corpus dat bestaat uit een verzameling artikelen uit 13 culturele of literaire tijdschriften die in Vlaanderen en Nederland zijn gepubliceerd. Het is een historisch corpus met teksten uit de periode tussen 1837 en 1999. Versie 2.0 van het corpus is een optimalisatie van het oorspronkelijke Dutch … [Lees meer...] overDutch C-CLAMP (Download)

LeTTuce-PoS Dataset (Download)

De LeTTuce-PoS-dataset is een meertalig benchmarkcorpus voor part-of-speech tagging in verschillende gegevensgenres en domeinen, waaronder sociale media, branchereviews (FMCG, human resources, hotels, luchtvaartmaatschappijen), technische en historische teksten. De gegevens zijn handmatig geannoteerd door drie getrainde taalkundigen en zijn bedoeld als benchmark voor de … [Lees meer...] overLeTTuce-PoS Dataset (Download)

Boarnsterhim Corpus 2.0 (BHC 2.0) (Download)

Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. In versie 2.0 is er voor elk geluidsbestand een TextGrid-bestand … [Lees meer...] overBoarnsterhim Corpus 2.0 (BHC 2.0) (Download)