Corpus

Dutch C-CLAMP

The Dutch Corpus of Contemporary and late Modern Periodicals (Dutch C-CLAMP) is een corpus dat bestaat uit een verzameling artikelen uit 13 culturele of literaire tijdschriften die in Vlaanderen en Nederland zijn gepubliceerd. Het is een historisch corpus met teksten uit de periode tussen 1837 en 1999. Versie 2.0 van het corpus is een optimalisatie van het oorspronkelijke Dutch … [Lees meer...] overDutch C-CLAMP

LeTTuce-PoS Dataset

De LeTTuce-PoS-dataset is een meertalig benchmarkcorpus voor part-of-speech tagging in verschillende gegevensgenres en domeinen, waaronder sociale media, branchereviews (FMCG, human resources, hotels, luchtvaartmaatschappijen), technische en historische teksten. De gegevens zijn handmatig geannoteerd door drie getrainde taalkundigen en zijn bedoeld als benchmark voor de … [Lees meer...] overLeTTuce-PoS Dataset

Boarnsterhim Corpus 2.0 (BHC 2.0)

Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. In versie 2.0 is er voor elk geluidsbestand een TextGrid-bestand … [Lees meer...] overBoarnsterhim Corpus 2.0 (BHC 2.0)

Couranten Corpus (Online)

Het Couranten Corpus bevat dertien zeventiende-eeuwse Nederlandse kranten uit de periode 1619-1700 die momenteel op Delpher.nl beschikbaar zijn. Er zijn 109.532 artikelen in te vinden met een totaal van 18.926.425 woorden. Het corpus is doorzoekbaar via een webapplicatie. De verschillen tussen versie 1.0 en versie 2.0 zijn: de gebruikersinterface bevat meer … [Lees meer...] overCouranten Corpus (Online)

Dutch Renaissance Poetry Corpus

Het Dutch Renaissance Poetry Corpus bevat alexandrijnen en jambische pentameters geschreven door een selectie van Nederlandse Renaissancedichters (eind 16de en 17de eeuw). De creatie en annotatie maakten deel uit van een promotieproject aan het Meertens Instituut (https://www.meertens.knaw.nl) dat werd gefinancierd door de Koninklijke Nederlandse Akademie van Wetenschappen … [Lees meer...] overDutch Renaissance Poetry Corpus