Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (o.a. syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de (verouderde) corpusexploratiesoftware Corex behoren ook tot het CGN.
Naast het Corpus Gesproken Nederlands zijn de CGN-annotaties ook apart te verkrijgen. Deze annotaties zijn identiek aan het volledige Corpus Gesproken Nederlands, maar dan zonder de geluidsbestanden.
Vanwege de hoeveelheid data kan dit product ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.
A collection of about 900 hours standard Dutch as spoken by adults in The Netherlands and Flanders. The speech fragments (spontaneous and prepared) are lined up with various transcriptions (including orthographic, phonetic) and annotations (including syntactic, POS tags). Metadata, lexica, frequency lists and the (outdated) corpus exploration software Corex are also part of the CGN.
By default, this language material is offered as a download and then there is no charge. But because of the large amount of data, the SoNaR corpus can also be requested on an external hard disk. For this the INT charges €100.00 shipping and handling fee.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Productdetails
Aantal uren spraak | 900 |
Dataformaat | Spraakbestanden (wav), annotaties (xml en txt) |
Documentatie | Over het Corpus Gesproken Nederlands (pdf) Zoekacties en codes in het CGN (pdf), en de interactieve documentatie (verwijzingen naar de data zijn niet actief). |
Eigenaar | Taalunie |
Financier | Vlaamse en Nederlandse regering en NWO |
Jaar | 2014 |
Opdrachtgever | NWO/NTU |
Project | Corpus Gesproken Nederlands |
Refereren | Corpus Gesproken Nederlands - CGN Commercieel (Version 2.0.3) (2014) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-d9 |
Software | Corex |
Talen | Nederlands, Vlaams |
Toepassing | Onderzoek, testen van spraakherkenners |
Webcursus | CGN-webcursus |
Versie | 2.0.3 |
Downloaddetails
Bestand | |
---|---|
BP_CGN_C.zip |
- Aantal bestanden 1
- Aantal downloads 112
- Bestandsgrootte 51.46 KB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 14/06/2024
- Versie 2.0.3