• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar

INT Taalmaterialen

Bronnen, data en tools voor
taalkundig onderzoek binnen het
Nederlandse taalgebied.

U bent ingelogd.

MENUMENU
  • Nieuw
  • Alle taalmaterialen
  • Over deze website
  • Mijn taalmaterialen
  • Registreren
  • Inloggen
  • Zoeken

SoNaR Character n-grams

Uit het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammen van lettertekenreeksen met lengtes 1, 2 en 3 afgeleid.
Van de originele bestanden werden tekstbestanden gemaakt in UTF-8. Op basis van die bestanden werden met een Perlscript - dat meegeleverd wordt - de n-grammen berekend, die vervolgens werden weggeschreven naar een tab-gescheiden bestand. Hoofdletters werden omgezet in kleine letters en werden dus niet apart geteld.

From the SoNaR Corpus version 1.2 (SONAR500) n-grams of character sequences have been derived with the lengths 1, 2, and 3.
The original text files were converted to text files in UTF-8. Then a Perl script (which is included) was used to calculate the n-grams and the results were written to a tab-separated file. Upper case characters have been converted to lower case and were therefore not counted separately.

Productdetails

Dataformaat txt, tab-gescheiden
Jaar 2023
Opdrachtgever INT
Project
Financier INT
Refereren SoNaR Character n-grams. Version 1.0, Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-w3.
Talen Nederlands
Omvang 170.955 n-grams
Toepassing woordvoorspelling
Versie 1.0
Licentie Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Downloaddetails


Bestand
sonar_ngrams1.0.zip
  • Aantal bestanden 1
  • Aantal downloads 5
  • Bestandsgrootte 146.62 MB
  • Datum plaatsing 11/05/2023
  • Laatst bijgewerkt 07/08/2023
  • Versie 1.0
Log in om te downloaden

Primaire Sidebar

Zoek op naam / tags

  • Disclaimer
  • Privacy Policy

© 2023 — Instituut voor de Nederlandse Taal — Contact: taalmaterialen@ivdnt.org

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Op deze website maken wij gebruik van cookies. Lees meerIk ga akkoord
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Altijd ingeschakeld
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
OPSLAAN & ACCEPTEREN
Naar de inhoud springen
Toolbar openen Toegankelijkheid

Toegankelijkheid

  • Vergroot tekstVergroot tekst
  • Verklein tekstVerklein tekst
  • GrijstintenGrijstinten
  • Hoog contrastHoog contrast
  • Negatief contrastNegatief contrast
  • Lichte achtergrondLichte achtergrond
  • Links onderstreeptLinks onderstreept
  • Leesbaar fontLeesbaar font
  • Terugzetten Terugzetten