Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat, afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties werden automatisch geproduceerd.
Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.
Dit taalmateriaal wordt standaard als download aangeboden en dan worden er geen kosten aangerekend. Maar omwille van de grote hoeveelheid data kan het SoNaR-corpus ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.
The SoNaR Large Corpus Commercial contains about 271 million words from texts in standard Dutch later than 1954. All texts were tokenized, tagged for part of speech and lemmatized. The named entities were also labelled. All annotations were produced automatically, no manual verification took place.
Productdetails
Documentatie | Documentatie; Verschillende SoNaR-corpora |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2015 |
Opdrachtgever | NTU|STEVIN |
Project | SoNaR: STEVIN Nederlandstalig Referentiecorpus |
Projectwebsite | https://lands.cls.ru.nl/projects/SoNaR/description.html |
Refereren | SoNaR Groot-corpus Commercieel (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-f4 |
Talen | Nederlands |
Versie | 1.2.1 |
Downloaddetails
Bestand | |
---|---|
BP_SoNaR_Groot_C.zip |
- Aantal bestanden 1
- Aantal downloads 48
- Bestandsgrootte 53.55 KB
- Datum plaatsing 04/09/2020
- Laatst bijgewerkt 04/07/2024
- Versie 1.2.1