Uit het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammen van lettertekenreeksen met lengtes 1, 2 en 3 afgeleid.
Van de originele bestanden werden tekstbestanden gemaakt in UTF-8. Op basis van die bestanden werden met een Perlscript - dat meegeleverd wordt - de n-grammen berekend, die vervolgens werden weggeschreven naar een tab-gescheiden bestand. Hoofdletters werden omgezet in kleine letters en werden dus niet apart geteld.
From the SoNaR Corpus version 1.2 (SONAR500) n-grams of character sequences have been derived with the lengths 1, 2, and 3.
The original text files were converted to text files in UTF-8. Then a Perl script (which is included) was used to calculate the n-grams and the results were written to a tab-separated file. Upper case characters have been converted to lower case and were therefore not counted separately.
Productdetails
| Dataformaat | txt, tab-gescheiden |
| Jaar | 2023 |
| Opdrachtgever | INT |
| Project | |
| Financier | INT |
| Refereren | SoNaR Character N-grams. Version 1.0 (2023) [Data set], Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-w3. |
| Talen | Nederlands |
| Omvang | 170.955 n-grams |
| Toepassing | woordvoorspelling |
| Versie | 1.0 |
| Licentie | Creative Commons Attribution 4.0 International License. |
Downloaddetails
| Bestand | |
|---|---|
| SoNaRCharacterN-grams_1.0.zip |
- Aantal bestanden 1
- Aantal downloads 25
- Bestandsgrootte 146.62 MB
- Datum plaatsing 11/05/2023
- Laatst bijgewerkt 26/08/2025
- Versie 1.0
