Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.
Informatie over de veranderingen in de verschillende versies is te vinden in de README.
Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor. Meer informatie vindt u in het downloadpakket.
Lassy Groot-corpus: A corpus of about 700 million words that has been annotated syntactically by machine.
Information about the changes between versions can be found in the README.
Productdetails
Dataformaat | xml (compact) |
Documentatie | LREC2006-artikel; TLT2009-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2016 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Groot-corpus (Version 7.0) (2023) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w8 |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 7.0 |
Downloaddetails
Bestand | |
---|---|
BP_LassyGroot_NC.zip |
- Aantal bestanden 1
- Aantal downloads 47
- Bestandsgrootte 6.03 KB
- Datum plaatsing 19/10/2023
- Laatst bijgewerkt 11/06/2024
- Versie 4.0