Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd.
The DAESO corpus is a parallel monolingual treebank of Dutch texts and the corpus contains more than 2.1 million words of parallel and similar text. About 678,000 words were manually aligned and about 1.5 million words automatically. A semantic relation was added to the aligned words/sentence parts.
Productdetails
Dataformaat | xml |
Documentatie | Construction of an aligned monolingual treebank for studying semantic similarity CLIN2007-artikel |
Eigenaar | De Nederlandse Taalunie |
Financier | NTU|STEVIN |
Jaar | 2010 |
Opdrachtgever | NTU|STEVIN |
Refereren | DAESO-corpus: parallelle Nederlandstalige monolinguale treebank (Version 1.0) (2010) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-h9 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
daeso10.tgz |
- Aantal bestanden 1
- Aantal downloads 15
- Bestandsgrootte 92.46 MB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 04/07/2024
- Versie 1.0