Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd.
The DAESO corpus is a parallel monolingual treebank of Dutch texts and the corpus contains more than 2.1 million words of parallel and similar text. About 678,000 words were manually aligned and about 1.5 million words automatically. A semantic relation was added to the aligned words/sentence parts.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Productdetails
Besturingssysteem | Linux |
Dataformaat | xml |
Documentatie | Construction of an aligned monolingual treebank for studying semantic similarity CLIN2007-artikel |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2010 |
Opdrachtgever | NTU|STEVIN |
Project | Nederlandse Taalunie |
Refereren | DAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel (Version 1.0) (2010) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-e5 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
BP_DAESO_C.zip |
- Aantal bestanden 1
- Aantal downloads 4
- Bestandsgrootte 51.67 KB
- Datum plaatsing 02/09/2020
- Laatst bijgewerkt 15/10/2024
- Versie 1.0