Het Eindhoven Corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976. Productdetails Dataformaat txt Documentatie Gebruikershandleiding; Documentatie … [Lees meer...] overEindhoven Corpus
Historisch
Gekaapte Brieven (Online)
Het corpus Gekaapte brieven bestaat uit de transcripties van 5862 brieven en andere documenten, zoals rekeningen, geschreven aan en van zeelieden en anderen uit het buitenland in de 17e en 18e eeuw. Deze brieven en documenten waren aanwezig op Nederlandse schepen die door de Engelsen waren gekaapt tijdens een van de vier oorlogen die in deze periode werden uitgevochten tussen … [Lees meer...] overGekaapte Brieven (Online)
Couranten Corpus (Online)
Het Couranten Corpus bevat dertien zeventiende-eeuwse Nederlandse kranten uit de periode 1619-1700 die momenteel op Delpher.nl beschikbaar zijn. Er zijn 109.532 artikelen in te vinden met een totaal van 18.926.425 woorden. Het corpus is doorzoekbaar via een webapplicatie. The Courant Corpus contains thirteen seventeenth-century Dutch newspapers from the period 1619-1700, … [Lees meer...] overCouranten Corpus (Online)
AI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
Corpus Juridisch Nederlands (Online)
Het Corpus Juridisch Nederlands omvat een verzameling van 5.856 wetsteksten uit de periode 1814 tot 1989, die per jaar zijn samengevoegd. Aanvankelijk maakte dit corpus deel uit van het 38 miljoenwoordencorpus en later van het Corpus Hedendaags Nederlands. The Corpus Juridisch Nederlands comprises a collection of 5,856 legal texts from the period 1814 to 1989, compiled year … [Lees meer...] overCorpus Juridisch Nederlands (Online)