Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel xml- als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.
Informatie over de veranderingen in de verschillende versies is te vinden in de README.
The Lassy Klein corpus is a corpus of about 1 million words with manually verified syntactic annotations. Lemmas and POS tags were automatically added to the corpus using Tadpole (now: Frog). The syntactic dependency structures were added using Alpino. The lemmas, POS tags and syntactic tree structures were verified and corrected.
The corpus is available in both xml and Dact formats and the Dact search software is included in the download file. The download additionally includes frequency lists.
Information about the changes in the various versions can be found in the README.
Productdetails
Dataformaat | xml, dact |
Documentatie | LREC2006-artikel; TLT2009-artikel, Aanpassingen Versie 7.0 |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2021 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Klein-corpus (Version 7.0) (2023) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w9 |
Software | Dact |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 7.0 |
Downloaddetails
Bestand | |
---|---|
Lassy_Klein-corpus_Niet-commercieel_7.0.zip |
- Aantal bestanden 1
- Aantal downloads 164
- Bestandsgrootte 947.97 MB
- Datum plaatsing 19/10/2023
- Laatst bijgewerkt 24/04/2025
- Versie 6.0