ACTER is een handmatig geannoteerde dataset voor termextractie, die drie talen omvat (Engels, Frans en Nederlands), en vier domeinen (corruptie, dressuur, hartfalen en windenergie). ACTER is a manually annotated dataset for term extraction, covering 3 languages (English, French, and Dutch), and 4 domains (corruption, dressage, heart failure, and wind … [Lees meer...] overAnnotated Corpora for Term Extraction Research (ACTER)
Niet-commercieel
BLISS Dialogue Summaries
Deze dataset bevat 557 conversaties tussen mens en computer die manueel geannoteerd zijn en voorzien van samenvattingen. Deze dataset is een uitbreiding op de originele BLISS Spoken Dialogue dataset die is uitgebracht in April 2020, met een klein aantal extra opgenomen mens-computer dialogen en Wizard-of-Oz mens-computerconversaties uit de originele JASMIN-CGN-dataset. Er zijn … [Lees meer...] overBLISS Dialogue Summaries
Couranten Corpus (Online)
Het Couranten Corpus bevat dertien zeventiende-eeuwse Nederlandse kranten uit de periode 1619-1700 die momenteel op Delpher.nl beschikbaar zijn. Er zijn 109.532 artikelen in te vinden met een totaal van 18.926.425 woorden. Het corpus is doorzoekbaar via een webapplicatie. The Courant Corpus contains thirteen seventeenth-century Dutch newspapers from the period 1619-1700, … [Lees meer...] overCouranten Corpus (Online)
AI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
Corpus Hedendaags Nederlands – CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,4 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor net geen 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. The … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)