Het CHOREC-spraakcorpus (Children's Oral Reading Corpus) is een verzameling van 130 uur spraak, afkomstig van 400 Vlaamse kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen. In het corpus zijn specifieke annotaties zoals leesstrategie en soorten leesfouten opgenomen. The CHOREC speech corpus (Children's Oral Reading Corpus) is a … [Lees meer...] overChildren’s Oral Reading Corpus (CHOREC)
Corpus
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel
Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd. The DAESO corpus is a parallel … [Lees meer...] overDAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel
COREA-coreferentiecorpus Commercieel
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. The COREA coreference corpus (approximately 150,000 words) consists of Dutch texts in … [Lees meer...] overCOREA-coreferentiecorpus Commercieel
BLISS Spoken Dialogue Dataset
Deze dataset bestaat uit Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem (v1) over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden. Dutch recordings of participants who speak with the BLISS dialogue system about everyday occupations and … [Lees meer...] overBLISS Spoken Dialogue Dataset
Autshumato Sesotho sa Leboa-English Translation Memory
Translation memory from Sesotho sa Leboa (Sepedi) to English (EN-GB), in the government domain for use in the Autshumato ITE application. Productdetails Aantal woorden Text: 44.977 translation units (tokens) Annotaties UTF8, XML, TMX Dataformaat txt Documentatie Readme contained in download Eigenaar North-West University, Centre for Text … [Lees meer...] overAutshumato Sesotho sa Leboa-English Translation Memory