Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.
Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor. Meer informatie vindt u in het downloadpakket.
Deze versie is vervallen. De meest recente versie is hier te vinden: http://hdl.handle.net/10032/tm-a2-w8.
Lassy Groot-corpus: A corpus of about 700 million words that has been annotated syntactically by machine.
This version is deprecated. The most recent version can be found here: http://hdl.handle.net/10032/tm-a2-w8.
Productdetails
Dataformaat | xml (compact) |
Documentatie | LREC2006-artikel; TLT2009-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2016 |
Opdrachtgever | NTU|STEVIN |
Project | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite | http://www.let.rug.nl/~vannoord/Lassy/ |
Refereren | Lassy Groot-corpus (Version 4.0) (2016) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-f6 |
Talen | Nederlands |
Toepassing | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Versie | 4.0 |
Downloaddetails
Bestand | |
---|---|
BP_LassyGroot_NC.zip |
- Aantal bestanden 1
- Aantal downloads 31
- Bestandsgrootte 6.03 KB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 09/07/2024
- Versie 4.0