Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden. De data wordt aangeboden als een tekstbestand van 82.4 Mb. Waarschuwing: Dit is niet de meest actuele versie van Moroccorp. De nieuwste versie is: Moroccorp 1.1. Moroccorp is a corpus of computer-mediated communication in … [Lees meer...] overMoroccorp
Grafzerk
Lassy Klein-corpus
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus
Lassy Groot-corpus
Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde … [Lees meer...] overLassy Groot-corpus
Lassy Groot-corpus Commercieel
Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er … [Lees meer...] overLassy Groot-corpus Commercieel
Eindhoven Corpus
Het Eindhoven Corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. Deze versie is vervangen door een nieuwere: versie 2.5. A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976. This version has been replaced by a … [Lees meer...] overEindhoven Corpus