Het BasiScript-corpus bestaat uit 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool. Het corpus bevat longitudinale data verzameld over drie achtereenvolgende jaren (najaar 2012 - voorjaar 2015) en het is ontworpen om zowel de educatieve diversiteit (type school) als geografische regio's van Nederland te kunnen vergelijken. De … [Lees meer...] overBasiScript-corpus
Corpus
BasiLex-corpus Commercieel
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media. The BasiLex corpus is an annotated collection of texts written for primary school-aged … [Lees meer...] overBasiLex-corpus Commercieel
BasiLex-corpus
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media. The BasiLex corpus is an annotated collection of texts written for primary school-aged … [Lees meer...] overBasiLex-corpus
Brieven als Buit – Gouden Standaard
Het materiaal Brieven als Buit - Gouden Standaard bestaat uit ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal. De transcriptie is gemaakt in het kader van het project aan de Universiteit Leiden. De verrijking is gebeurd door het Instituut voor de Nederlandse Taal. The language … [Lees meer...] overBrieven als Buit – Gouden Standaard
AUTONOMATA-POI-corpus
Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast werden sprekers in staat gesteld meerdere pogingen voor een POI op te nemen, … [Lees meer...] overAUTONOMATA-POI-corpus