Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.
Naast het Corpus Gesproken Nederlands zijn de CGN-annotaties ook apart te verkrijgen. Deze annotaties zijn identiek aan het volledige Corpus Gesproken Nederlands, maar dan zonder de geluidsbestanden.
Vanwege de hoeveelheid data kan dit product ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.
A collection of about 900 hours spoken standard Dutch from Flanders and the Netherlands.
Productdetails
Aantal uren spraak | 900 |
Dataformaat | Spraakbestanden (wav), annotaties (xml en txt) |
Documentatie | Over het Corpus Gesproken Nederlands (pdf)Zoekacties en codes in het CGN (pdf), en de interactieve documentatie (verwijzingen naar de data zijn niet actief). |
Eigenaar | Taalunie |
Financier | Vlaamse en Nederlandse regering en NWO |
Jaar | 2014 |
Opdrachtgever | NWO/NTU |
Project | Corpus Gesproken Nederlands |
Refereren | Corpus Gesproken Nederlands - CGN (Version 2.0.3) (2014) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-k6 |
Software | Corex |
Talen | Nederlands, Vlaams |
Toepassing | Onderzoek, testen van spraakherkenners |
Webcursus | CGN-webcursus |
Versie | 2.0.3 |
Downloaddetails
Bestand | |
---|---|
20151207_CGN_2_0_3.tgz |
- Aantal bestanden 1
- Aantal downloads 1632
- Bestandsgrootte 96,432.56 MB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 14/06/2024
- Versie 2.0.3