Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd.
A parallel monolingual treebank for Dutch.
Productdetails
Dataformaat | xml |
Documentatie | Construction of an aligned monolingual treebank for studying semantic similarity CLIN2007-artikel |
Eigenaar | De Nederlandse Taalunie |
Financier | NTU|STEVIN |
Jaar | 2010 |
Opdrachtgever | NTU|STEVIN |
Projectwebsite | http://daeso.uvt.nl/ |
Refereren | DAESO-corpus: parallelle Nederlandstalige monolinguale treebank (Version 1.0) (2010) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-h9 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
daeso10.tgz |
- Aantal bestanden 1
- Aantal downloads 11
- Bestandsgrootte 92.46 MB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 22/07/2021
- Versie 1.0