SoNaR Character N-grams - INT Taalmaterialen

Uit het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammen van lettertekenreeksen met lengtes 1, 2 en 3 afgeleid.
Van de originele bestanden werden tekstbestanden gemaakt in UTF-8. Op basis van die bestanden werden met een Perlscript - dat meegeleverd wordt - de n-grammen berekend, die vervolgens werden weggeschreven naar een tab-gescheiden bestand. Hoofdletters werden omgezet in kleine letters en werden dus niet apart geteld.

From the SoNaR Corpus version 1.2 (SONAR500) n-grams of character sequences have been derived with the lengths 1, 2, and 3.
The original text files were converted to text files in UTF-8. Then a Perl script (which is included) was used to calculate the n-grams and the results were written to a tab-separated file. Upper case characters have been converted to lower case and were therefore not counted separately.

Productdetails

Dataformaat	txt, tab-gescheiden
Jaar	2023
Opdrachtgever	INT
Project
Financier	INT
Refereren	SoNaR Character N-grams. Version 1.0 (2023) [Data set], Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-w3.
Talen	Nederlands
Omvang	170.955 n-grams
Toepassing	woordvoorspelling
Versie	1.0
Licentie	Creative Commons Attribution 4.0 International License.

Downloaddetails

Bestand
SoNaRCharacterN-grams_1.0.zip

Aantal bestanden 1
Aantal downloads 29
Bestandsgrootte 146.62 MB
Datum plaatsing 11/05/2023
Laatst bijgewerkt 26/08/2025
Versie 1.0