De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
Productpagina
Pinkhof Geneeskundig Woordenboek (Online)
De papieren versie van het Pinkhof Geneeskundig Woordenboek werd voor het eerst uitgegeven in 1923. Het beroemde naslagwerk was oorspronkelijk samengesteld door de Amsterdamse arts Herman Pinkhof en is door de jaren heen vele malen herzien en herdrukt. Deze online versie van de medische woordenlijst bevat ruim 52.000 termen met hun betekenissen en/of verwijzingen en is gratis … [Lees meer...] overPinkhof Geneeskundig Woordenboek (Online)
Corpus Juridisch Nederlands (Online)
Het Corpus Juridisch Nederlands omvat een verzameling van 5.856 wetsteksten uit de periode 1814 tot 1989, die per jaar zijn samengevoegd. Aanvankelijk maakte dit corpus deel uit van het 38 miljoenwoordencorpus en later van het Corpus Hedendaags Nederlands. The Corpus Juridisch Nederlands comprises a collection of 5,856 legal texts from the period 1814 to 1989, compiled year … [Lees meer...] overCorpus Juridisch Nederlands (Online)
Corpus Oudnederlands (Online)
Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW). The Corpus Old Dutch is a collection of all remaining Dutch word material from the period 475-1200 that served as source material for the Oudnederlands Woordenboek (ONW; Dictionary … [Lees meer...] overCorpus Oudnederlands (Online)
GiGaNT-Molex
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaagse corpusteksten van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling. Versie 2.0 bevat 223.153 lemmata en 751.448 woordvormen met afbrekingen. Voor commercieel gebruik … [Lees meer...] overGiGaNT-Molex