CELEX is ontwikkeld in een samenwerkend verband tussen de Universiteit van Nijmegen, het Instituut voor de Nederlandse Lexicologie (tegenwoordig het Instituut voor de Nederlandse Taal - INT), het Max Planck Instituut voor Psycholinguïstiek in Nijmegen en het Instituut voor Perceptie Onderzoek te Eindhoven. De oorspronkelijke versie verscheen op cd-rom en bevatte ASCII-versies … [Lees meer...] overCELEX-2 Dutch
Commercieel
AI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
SoNaR Klein-corpus Commercieel
Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, sematische rollen en de annotatie van spatiële en temporele relaties. Alle annotaties werden manueel geverifieerd. Dit product is gratis. Maar het is wel … [Lees meer...] overSoNaR Klein-corpus Commercieel
SoNaR Groot-corpus Commercieel
Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd. Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie … [Lees meer...] overSoNaR Groot-corpus Commercieel