Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel xml- als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.
A syntactically annotated corpus consisting of a million words.
Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.
Productdetails
Dataformaat | xml, dact |
Documentatie | LREC2006-artikel; TLT2009-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2012 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Klein-corpus Commercieel (Version 1.1) (2012) [Data set]. Available at the Dutch Language Institute. |
Software | Dact |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 1.1 |
Downloaddetails
Bestand | |
---|---|
BP_LassyKlein_C.zip |
- Aantal bestanden 1
- Aantal downloads 15
- Bestandsgrootte 52.06 KB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 22/07/2021
- Versie 4.0