Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd.
Productdetails
Besturingssysteem | Linux |
Dataformaat | xml |
Documentatie | Construction of an aligned monolingual treebank for studying semantic similarity CLIN2007-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2010 |
Opdrachtgever | NTU|STEVIN |
Project | Nederlandse Taalunie |
Projectwebsite | http://daeso.uvt.nl/ |
Refereren | DAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel (Version 1.0) (2010) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-e5 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
BP_DAESO-C.zip |
- Aantal bestanden 1
- Aantal downloads 1
- Bestandsgrootte 51.67 KB
- Datum plaatsing 02/09/2020
- Laatst bijgewerkt 06/01/2021
- Versie 1.0