Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. Informatie over de veranderingen in de verschillende versies is te vinden in de README. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er geen kosten aan verbonden. Maar vanwege de grote hoeveelheid gegevens kan … [Lees meer...] overLassy Groot-corpus Commercieel
Commercieel
CELEX-2 Dutch
CELEX is ontwikkeld in een samenwerkend verband tussen de Universiteit van Nijmegen, het Instituut voor de Nederlandse Lexicologie (tegenwoordig het Instituut voor de Nederlandse Taal - INT), het Max Planck Instituut voor Psycholinguïstiek in Nijmegen en het Instituut voor Perceptie Onderzoek te Eindhoven. De oorspronkelijke versie verscheen op cd-rom en bevatte ASCII-versies … [Lees meer...] overCELEX-2 Dutch
AI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
De AI-trainingset voor NER is in 2020 gemaakt door de circa 150 vrijwilligers van het crowdsourcingsproject "Tag de tekst" op VeleHanden.nl. Persoonsnamen, locaties en tijdsaanduidingen zijn geannoteerd in al eerder ontwikkelde Ground Truth-transcripties (GT-transcripties) van 10.567 scans en gecontroleerd door drie ervaren super users. Een uitgebreide beschrijving van de … [Lees meer...] overAI-Trainingset – Tag de Tekst voor Named Entity Recognition (NER)
SumNL-samenvattingencorpus Commercieel
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
SoNaR Klein-corpus Commercieel
Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, sematische rollen en de annotatie van spatiële en temporele relaties. Alle annotaties werden manueel geverifieerd. Dit product is gratis. Maar het is wel … [Lees meer...] overSoNaR Klein-corpus Commercieel