Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1.
SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.
SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.
De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart als het SoNaR Nieuwe Media Corpus beschikbaar.
Het SoNaR-corpus is ook online te bevragen. Zie de productpagina van OpenSoNaR.
Dit taalmateriaal wordt standaard als download aangeboden en dan worden er geen kosten aangerekend. Maar omwille van de grote hoeveelheid data kan het SoNaR-corpus ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.
The SoNaR Corpus contains more than 500 million words from texts in standard Dutch later than 1954. All texts were tokenized, tagged for part of speech and lemmatized. The named entities were also labelled. All annotations were produced automatically, no manual verification took place.
Productdetails
Documentatie | Documentatie; Verschillende SoNaR-corpora |
Eigenaar | Taalunie |
Financier | NTU|STEVIN |
Jaar | 2015 |
Opdrachtgever | NTU|STEVIN |
Project | SoNaR |
Projectwebsite | https://lands.cls.ru.nl/projects/SoNaR/description.html |
Refereren | SoNaR-corpus (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-h5 |
Talen | Nederlands |
Versie | 1.2.1 |
Downloaddetails
Bestand | |
---|---|
20150602_SoNaRCorpus_NC_1.2.1.tgz |
- Aantal bestanden 1
- Aantal downloads 838
- Bestandsgrootte 58,823.59 MB
- Datum plaatsing 04/09/2020
- Laatst bijgewerkt 04/07/2024
- Versie 1.2.1