Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel xml- als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.
A syntactically annotated corpus consisting of a million words.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Productdetails
Dataformaat | xml, dact |
Documentatie | LREC2006-artikel; TLT2009-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2012 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Klein-corpus Commercieel (Version 1.1) (2012) [Data set]. Available at the Dutch Language Institute. |
Software | Dact |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 1.1 |
Downloaddetails
Bestand | |
---|---|
BP_LassyKlein_C.zip |
- Aantal bestanden 1
- Aantal downloads 17
- Bestandsgrootte 52.06 KB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 02/03/2023
- Versie 4.0