Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. Informatie over de veranderingen in de verschillende versies is te vinden in de README. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er geen kosten aan verbonden. Maar vanwege de grote hoeveelheid gegevens kan dit corpus ook … [Lees meer...] overLassy Groot-corpus
Niet-commercieel
Lassy Klein-corpus
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus
Belgian Covid Sign Language Corpus – BeCoS Corpus
Het Belgische Federale COVID-19-corpus, genaamd het BeCoS-corpus (Belgian Covid Sign language corpus), bestaat uit het volledige archief van officiële persconferenties van de Belgische federale overheid betreffende de COVID-19-pandemie. De sprekers spreken meestal Nederlands of Frans en een enkele keer Duits, en bijna alle spraak wordt getolkt door een dove gebarentaaltolk die … [Lees meer...] overBelgian Covid Sign Language Corpus – BeCoS Corpus
CELEX-2 Dutch
CELEX is ontwikkeld in een samenwerkend verband tussen de Universiteit van Nijmegen, het Instituut voor de Nederlandse Lexicologie (tegenwoordig het Instituut voor de Nederlandse Taal - INT), het Max Planck Instituut voor Psycholinguïstiek in Nijmegen en het Instituut voor Perceptie Onderzoek te Eindhoven. De oorspronkelijke versie verscheen op cd-rom en bevatte ASCII-versies … [Lees meer...] overCELEX-2 Dutch
SoNaR Character N-grams
Uit het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammen van lettertekenreeksen met lengtes 1, 2 en 3 afgeleid. Van de originele bestanden werden tekstbestanden gemaakt in UTF-8. Op basis van die bestanden werden met een Perlscript - dat meegeleverd wordt - de n-grammen berekend, die vervolgens werden weggeschreven naar een tab-gescheiden bestand. Hoofdletters werden omgezet … [Lees meer...] overSoNaR Character N-grams