• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar

INT Taalmaterialen

Bronnen, data en tools voor
taalkundig onderzoek binnen het
Nederlandse taalgebied.

U bent ingelogd.

MENUMENU
  • Nieuw
  • Alle taalmaterialen
  • Over deze website
  • Mijn taalmaterialen
  • Registreren
  • Inloggen
  • Zoeken

SoNaR-corpus

Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1.

SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.

SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.

De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart als het SoNaR Nieuwe Media Corpus beschikbaar.

Het SoNaR-corpus is ook online te bevragen. Zie de productpagina van OpenSoNaR.

Dit taalmateriaal wordt standaard als download aangeboden en dan worden er geen kosten aangerekend. Maar omwille van de grote hoeveelheid data kan het SoNaR-corpus ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.

The SoNaR Corpus contains more than 500 million words from texts in standard Dutch later than 1954. All texts were tokenized, tagged for part of speech and lemmatized. The named entities were also labelled. All annotations were produced automatically, no manual verification took place.

Productdetails

Documentatie Documentatie; Verschillende SoNaR-corpora
Eigenaar Taalunie
Financier NTU|STEVIN
Jaar 2015
Opdrachtgever NTU|STEVIN
Project SoNaR
Projectwebsite http://lands.let.ru.nl/projects/SoNaR
Refereren SoNaR-corpus (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-h5
Talen Nederlands
Versie 1.2.1

Downloaddetails


Bestand
20150602_SoNaRCorpus_NC_1.2.1.tgz
  • Aantal bestanden 1
  • Aantal downloads 491
  • Bestandsgrootte 58,823.59 MB
  • Datum plaatsing 04/09/2020
  • Laatst bijgewerkt 21/02/2023
  • Versie 1.2.1
Log in om te downloaden

Primaire Sidebar

Zoek op naam / tags

  • Disclaimer
  • Privacy Policy

© 2023 — Instituut voor de Nederlandse Taal — Contact: taalmaterialen@ivdnt.org

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Op deze website maken wij gebruik van cookies. Lees meerIk ga akkoord
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Altijd ingeschakeld
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
OPSLAAN & ACCEPTEREN
Naar de inhoud springen
Toolbar openen Toegankelijkheid

Toegankelijkheid

  • Vergroot tekstVergroot tekst
  • Verklein tekstVerklein tekst
  • GrijstintenGrijstinten
  • Hoog contrastHoog contrast
  • Negatief contrastNegatief contrast
  • Lichte achtergrondLichte achtergrond
  • Links onderstreeptLinks onderstreept
  • Leesbaar fontLeesbaar font
  • Terugzetten Terugzetten