Het BasiScript-corpus bestaat uit 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool.
Het corpus bevat longitudinale data verzameld over drie achtereenvolgende jaren (najaar 2012 - voorjaar 2015) en het is ontworpen om zowel de educatieve diversiteit (type school) als geografische regio's van Nederland te kunnen vergelijken.
De data bevat voornamelijk handgeschreven teksten en een klein aantal teksten geproduceerd met een tekstverwerker (met automatische spelling en grammaticacontrole uitgeschakeld).
De data is geanonimiseerd.
Het BasiScript-lexicon is afgeleid van dit corpus.
The BasiScript Corpus consists of 9 million words of written text produced by Dutch elementary school students.
The corpus contains longitudinal data collected over three consecutive years (fall 2012 - spring 2015) and it was designed to compare both educational diversity (type of school) and geographical regions of the Netherlands.
The data contains mainly handwritten texts and a small number of texts produced with a word processor (with automatic spelling and grammar checking disabled).
The data has been anonymized.
The BasiScript Lexicon contains all lemmas from the BasiScript Corpus with additional information.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Productdetails
Dataformaat | xml (FoLiA) |
Doelpubliek | Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers. |
Eigenaar | Radboud Universiteit |
Financier | NWO |
Jaar | 2015 |
Project | Basiscript: a corpus of written language output as produced by elementary school children in the Netherlands, annotated for spelling, word frequencies and word properties, and a 20,000-word lexicon annotated for word senses zie details. |
Refereren | Tellings, A. E. J. M. (2015), BasiScript-lexicon Commercieel (Version 1.0) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-d3 |
Talen | Nederlands |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
BP_BasiScriptLexiconC.zip |
- Aantal bestanden 1
- Aantal downloads 11
- Bestandsgrootte 35.51 KB
- Datum plaatsing 17/07/2020
- Laatst bijgewerkt 28/10/2024
- Versie 1.0