Uit het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammen van lettertekenreeksen met lengtes 1, 2 en 3 afgeleid.
Van de originele bestanden werden tekstbestanden gemaakt in UTF-8. Op basis van die bestanden werden met een Perlscript - dat meegeleverd wordt - de n-grammen berekend, die vervolgens werden weggeschreven naar een tab-gescheiden bestand. Hoofdletters werden omgezet in kleine letters en werden dus niet apart geteld.
From the SoNaR Corpus version 1.2 (SONAR500) n-grams of character sequences have been derived with the lengths 1, 2, and 3.
The original text files were converted to text files in UTF-8. Then a Perl script (which is included) was used to calculate the n-grams and the results were written to a tab-separated file. Upper case characters have been converted to lower case and were therefore not counted separately.
Productdetails
Dataformaat | txt, tab-gescheiden |
Jaar | 2023 |
Opdrachtgever | INT |
Project | |
Financier | INT |
Refereren | SoNaR Character N-grams. Version 1.0 (2023) [Data set], Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w3. |
Talen | Nederlands |
Omvang | 170.955 n-grams |
Toepassing | woordvoorspelling |
Versie | 1.0 |
Licentie | Creative Commons Attribution 4.0 International License. |
Downloaddetails
Bestand | |
---|---|
sonar_ngrams1.0.zip |
- Aantal bestanden 1
- Aantal downloads 17
- Bestandsgrootte 146.62 MB
- Datum plaatsing 11/05/2023
- Laatst bijgewerkt 25/11/2024
- Versie 1.0