Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel xml- als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.
Informatie over de veranderingen in de verschillende versies is te vinden in de README.
The Lassy Small Corpus contains about a million words with manually verified syntactical annotations.
Productdetails
Dataformaat | xml, dact |
Documentatie | LREC2006-artikel; TLT2009-artikel, Aanpassingen Versie 7.0 |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2021 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Klein-corpus (Version 7.0) (2023) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w9 |
Software | Dact |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 7.0 |
Downloaddetails
Bestand | |
---|---|
lassysmall70.zip |
- Aantal bestanden 1
- Aantal downloads 129
- Bestandsgrootte 947.97 MB
- Datum plaatsing 19/10/2023
- Laatst bijgewerkt 14/06/2024
- Versie 6.0