Grafzerk

Lassy Klein-corpus

Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd. Het … [Lees meer...] overLassy Klein-corpus

Lassy Groot-corpus

Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde … [Lees meer...] overLassy Groot-corpus

Lassy Groot-corpus Commercieel

Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er … [Lees meer...] overLassy Groot-corpus Commercieel

Eindhoven Corpus

Het Eindhoven Corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. Deze versie is vervangen door een nieuwere: versie 2.5. A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976. This version has been replaced by a … [Lees meer...] overEindhoven Corpus

IMDI-server

IMDI-server De IMDI-server, waarop de data van het Corpus Gesproken Nederlands (CGN) beschikbaar waren gesteld, is opgeheven. Het CGN is te vinden in de CGN - Taalmaterialen van het INT. Status: Vervallen Details … [Lees meer...] overIMDI-server

« Vorige