Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten. De commerciële versie van dit corpus bevat een tweetal clusters minder dan de … [Lees meer...] overSumNL-samenvattingencorpus Commercieel
Grafzerk
RND Woordenlijsten
De Reeks Nederlandse Dialectatlassen is een serie boeken, uitgegeven tussen 1925 en 1976, met daarin de fonetische transcripties van een vast aantal zinnen. Daarbij is de uitspraak vastgelegd van zegslieden uit een groot aantal dorpen en steden in Nederland en Vlaanderen. De boeken zijn uitgegeven door uitgeverij De Sikkel, nu Van In. De volledige inhoud van die boeken is te … [Lees meer...] overRND Woordenlijsten
RBN-klein
Een verzameling van ongeveer 10.000 frequente Nederlandse woorden, afgeleid van het Referentiebestand Nederlands (RBN). Dit taalmateriaal is niet langer beschikbaar. A collection of about 10,000 frequent Dutch words, derived from the Referentiebestand Nederlands (RBN). This language material is no longer available. … [Lees meer...] overRBN-klein
RBN-klein Commercieel
Een verzameling van ongeveer 10.000 frequente Nederlandse woorden, afgeleid van het Referentiebestand Nederlands (RBN). Dit taalmateriaal is niet langer beschikbaar. A collection of about 10,000 frequent Dutch words, derived from the Referentiebestand Nederlands (RBN). This language material is no longer available. … [Lees meer...] overRBN-klein Commercieel
Moroccorp
Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden. De data wordt aangeboden als een tekstbestand van 82.4 Mb. Waarschuwing: Dit is niet de meest actuele versie van Moroccorp. De nieuwste versie is: Moroccorp 1.1. Moroccorp is a corpus of computer-mediated communication in … [Lees meer...] overMoroccorp