Het Couranten Corpus bevat dertien zeventiende-eeuwse Nederlandse kranten uit de periode 1619-1700 die momenteel op Delpher.nl beschikbaar zijn. Er zijn 109.532 artikelen in te vinden met een totaal van 18.926.425 woorden. Het corpus is doorzoekbaar via een webapplicatie. The Courant Corpus contains thirteen seventeenth-century Dutch newspapers from the period 1619-1700, … [Lees meer...] overCouranten Corpus (Online)
Niet-commercieel
AI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
Corpus Hedendaags Nederlands – CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,4 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor net geen 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. The … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)
Hoger Onderwijs Terminologie in Nederland en Vlaanderen (HOTNeV)
De aanzet voor dit project vormde de sterke toename van onderwijstermen, gegenereerd door het onderwijsbeleid van de EU en geïmplementeerd door het Tuning Project. HOTNeV beoogt een tweeledig doel. Waar tot op heden Nederlandstalige equivalenten voor de Engelstalige terminologie vooral ad hoc werden gecreëerd, vestigt dit project de aandacht op de noodzaak om gecoördineerd te … [Lees meer...] overHoger Onderwijs Terminologie in Nederland en Vlaanderen (HOTNeV)
BLISS Dialogue Summaries
Deze dataset bestaat uit Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem (v1) over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden. Deze versie is vervallen. Een nieuwe versie is hier beschikbaar: http://hdl.handle.net/10032/tm-a2-v3 Dutch … [Lees meer...] overBLISS Dialogue Summaries