Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse (literaire) rijm- en prozateksten uit de periode 1300-1550. De teksten zijn doorzoekbaar via een webapplicatie. The Corpus Middle Dutch is a collection of over 350 Middle Dutch (literary) rhyme and prose texts from the period 1300-1550. The texts can be searched via a web interface. Ga naar … [Lees meer...] overCorpus Middelnederlands (Online)
Lemma's
Corpus Gysseling (Online)
Het Corpus Gysseling dat hier ter beschikking wordt gesteld is de verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. Het is de digitale uitgave, verrijkt met woordsoort en lemma, van het dertiende-eeuwse materiaal uit het Corpus van Middelnederlandse teksten (tot en met het jaar 1300), uitgegeven in … [Lees meer...] overCorpus Gysseling (Online)
Corpus Hedendaags Nederlands – CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,4 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor net geen 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. Deze … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)
Lassy Klein-corpus
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals tweets die via Twitter verzameld zijn, chats die via publieke … [Lees meer...] overSoNaR Nieuwe Media Corpus