Het BasiLex-lexicon bevat alle lemma's uit het BasiLex-corpus. Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.
Aan de lemma's werd de volgende informatie toegevoegd: woordsoort, betekenis (bij ambigue woorden), lemmalengte, relatieve totale frequentie, absolute totale frequentie, geometrisch gemiddelde, de absolute frequentie per leerjaar en binnen het leerjaar per subcorpus, en de family size, family frequency, en orthographic neighborhood size per subcorpus.
Er worden ook extra frequentielijsten meegeleverd: een lijst met de 20.000 frequentste lemma's in het BasiLex-corpus met o.a. hun absolute totaalfrequenties en hun geometrisch gemiddelde (met en zonder uitsplitsing van de ambigue woorden) en een vergelijking tussen de 20.000 frequentste BasiLex-woorden en de 20.000 frequentste woorden uit een aantal SoNaR-subcorpora.
The BasiLex lexicon contains all the lemmas from the BasiLex corpus. The BasiLex corpus is an annotated collection of texts written for children of primary school age.
The following information was added to the lemmas: word type, meaning (for ambiguous words), lemmal length, relative total frequency, absolute total frequency, geometric mean, the absolute frequency per grade and within grade per subcorpus, and the family size, family frequency, and orthographic neighbourhood size per subcorpus.
Additional frequency lists are also included: a list of the 20,000 most frequent lemmas in the BasiLex corpus including their absolute total frequencies and their geometric mean (with and without a breakdown of ambiguous words) and a comparison between the 20,000 most frequent BasiLex words and the 20,000 most frequent words from a number of SoNaR subcorpuses.
Because of agreements with the data supplier, it is necessary to sign a licence first. The download contains the licence and further instructions for placing an order.
Dataformaat | xlsx (sql, ods, csv) |
Doelpubliek | Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers. |
Eigenaar | Radboud Universiteit |
Financier | NWO |
Jaar | 2015 |
Originele publicaties | Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208 |
Project | WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmataized, with a derived lexicon tagged for frequency and linguistic characteristics |
Refereren | Tellings, A. E. J. M. (2015), BasiLex Lexicon (Version 1.0.1) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-k7 |
Talen | Nederlands |
Versie | 1.0.1 |
Bestand | |
BP_BasiLex-lexicon_NC.zip |
- Aantal bestanden 1
- Aantal downloads 125
- Bestandsgrootte 53.25 KB
- Datum plaatsing 17/07/2020
- Laatst bijgewerkt 07/02/2025
- Versie 1.0.1