Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica en frequentielijsten behoren ook tot … [Lees meer...] overCorpus Gesproken Nederlands (CGN) Commercieel
Spraak
Children’s Oral Reading Corpus (CHOREC)
Het CHOREC-spraakcorpus (Children's Oral Reading Corpus) is een verzameling van 130 uur spraak, afkomstig van 400 Vlaamse kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen. In het corpus zijn specifieke annotaties zoals leesstrategie en soorten leesfouten opgenomen. The CHOREC speech corpus (Children's Oral Reading Corpus) is a … [Lees meer...] overChildren’s Oral Reading Corpus (CHOREC)
BLISS Spoken Dialogue Dataset
Deze dataset bestaat uit Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem (v1) over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden. Dutch recordings of participants who speak with the BLISS dialogue system about everyday occupations and … [Lees meer...] overBLISS Spoken Dialogue Dataset
CGN-annotaties Commercieel
De CGN-annotaties bevatten het volledig geannoteerde Corpus Gesproken Nederlands (CGN) in getranscribeerde vorm en ook Corex, de corpusexploratiesoftware die bij het CGN hoort. Hou er rekening mee dat de software verouderd is en dat die niet meer geüpdatet of ondersteund wordt. The CGN Annotations contain the data from the Spoken Dutch Corpus (CGN) minus the sound data. … [Lees meer...] overCGN-annotaties Commercieel
CGN-annotaties
De CGN-annotaties bevatten het volledig geannoteerde Corpus Gesproken Nederlands (CGN) in getranscribeerde vorm en ook Corex, de corpusexploratiesoftware die bij het CGN hoort. Hou er rekening mee dat de software verouderd is en dat die niet meer geüpdatet of ondersteund wordt. The CGN Annotations contain the data from the Spoken Dutch Corpus (CGN) minus the sound data. … [Lees meer...] overCGN-annotaties