BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool.
Het corpus bevat longitudinale data verzameld over drie achtereenvolgende jaren (najaar 2012 - voorjaar 2015). Het BasiScript-corpus is ontworpen om zowel de educatieve diversiteit (type school) als de geografische regio's van Nederland te kunnen vergelijken.
De data bevat voornamelijk handgeschreven teksten en een klein aantal teksten geproduceerd met een tekstverwerker (met automatische spelling- en grammaticacontrole uitgeschakeld).
De data is geanonimiseerd.
Het BasiScript-lexicon is afgeleid van dit corpus.
The Basilex Lexicon contains all lemmas from the Basilex Corpus with additional information.
Productdetails
Dataformaat | xml (FoLiA) |
Doelpubliek | Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers. |
Eigenaar | Radboud Universiteit |
Financier | NWO |
Jaar | 2015 |
Project | Basiscript: a corpus of written language output as produced by elementary school children in the Netherlands, annotated for spelling, word frequencies and word properties, and a 20,000-word lexicon annotated for word senses zie details. |
Refereren | Tellings, A. E. J. M. (2015), BasiScript Lexicon (Version 1.0) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-f2 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
BP_BasiScriptLexicon_NC.zip |
- Aantal bestanden 1
- Aantal downloads 10
- Bestandsgrootte 53.12 KB
- Datum plaatsing 17/07/2020
- Laatst bijgewerkt 29/11/2021
- Versie 1.0