Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.
The Basilex corpus is an annotated collection of texts written for children in the age from four to twelve years.
Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Besturingssysteem | Linux, Windows |
Dataformaat | xml (FoLiA) |
Doelpubliek | Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers. |
Eigenaar | Radboud Universiteit |
Financier | NWO |
Jaar | 2015 |
Originele publicaties | Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208 |
Project | WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmataized, with a derived lexicon tagged for frequency and linguistic characteristics |
Refereren | Tellings, A. E. J. M. (2015), BasiLex-corpus Commercieel (Version 1.0) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-d7 |
Talen | Nederlands |
Versie | 1.0 |
Bestand | |
BP_BasiLex-corpus_C.zip |
- Aantal bestanden 1
- Aantal downloads 22
- Bestandsgrootte 34.81 KB
- Datum plaatsing 17/07/2020
- Laatst bijgewerkt 15/10/2024
- Versie 1.0