Dit corpus bevat 57 ondertitelde colleges van de Universiteit van Nederland (UvN). Ondertitels werden toegevoegd aan bestaande video-opnames van colleges van de UvN. In tegenstelling tot gewone ondertitels zijn de ondertitels die in dit project werden gegenereerd een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten … [Lees meer...] overCorpus Ondertitelde UvN-colleges (COUC)
Niet-commercieel
Database van de Zuidelijk-Nederlandse Dialecten – DSDD (Online)
De database van de Zuidelijk-Nederlandse dialecten is samengesteld uit drie regionale dialectwoordenboeken: het Woordenboek van de Vlaamse Dialecten (WVD), het Woordenboek van de Brabantse Dialecten (WBD) en het Woordenboek van de Limburgse Dialecten (WLD). The Database of the Southern Dutch Dialects (DSDD) is an aggregation of three regional dialect dictionaries: the … [Lees meer...] overDatabase van de Zuidelijk-Nederlandse Dialecten – DSDD (Online)
Dutch Idiom Database: Native Speakers (DID-NS)
De Dutch Idiom Database: Native Speakers is een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatische uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid, herkenbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van … [Lees meer...] overDutch Idiom Database: Native Speakers (DID-NS)
Wablieft-corpus
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de … [Lees meer...] overWablieft-corpus
SumNL-samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. The SumNL-samenvattingencorpus is based on 30 clusters. Each cluster … [Lees meer...] overSumNL-samenvattingencorpus