Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica en frequentielijsten behoren ook tot het CGN.
Het corpus wordt geleverd met Corex, de corpusexploratiesoftware, maar hou er rekening mee dat de software verouderd is en dat die niet meer geüpdatet of ondersteund wordt.
Naast het Corpus Gesproken Nederlands zijn de CGN-annotaties ook apart te verkrijgen. Deze annotaties zijn identiek aan het volledige Corpus Gesproken Nederlands, maar dan zonder de geluidsbestanden.
A collection of about 900 hours spoken standard Dutch from Flanders and the Netherlands. The speech recordings (spontaneous and prepared) are lined up with various transcriptions (including orthographic, phonetic) and annotations (syntactic, POS tags). Metadata, lexicons and frequency lists are also part of the CGN.
The corpus comes with Corex, the corpus exploration software, but please note that the software is outdated and is no longer updated or supported.
In addition to the Corpus Gesproken Nederlands, the CGN annnotations are also available separately. These annotations are identical to the full Corpus Gesproken Nederlands, but without the sound files.
This product is free of charge. However, it is necessary to sign a license first. The download contains the license and further instructions for placing an order.
Productdetails
Aantal uren spraak | 900 |
Dataformaat | Spraakbestanden (wav), annotaties (xml en txt) |
Documentatie | Over het Corpus Gesproken Nederlands (pdf) Zoekacties en codes in het CGN (pdf), en de interactieve documentatie (verwijzingen naar de data zijn niet actief). |
Eigenaar | Taalunie |
Financier | Vlaamse en Nederlandse regering en NWO |
Jaar | 2014 |
Opdrachtgever | NWO/NTU |
Project | Corpus Gesproken Nederlands |
Refereren | Corpus Gesproken Nederlands - CGN Commercieel (Version 2.0.3) (2014) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-d9 |
Software | Corex |
Talen | Nederlands, Vlaams |
Toepassing | Onderzoek, testen van spraakherkenners |
Webcursus | CGN-webcursus |
Versie | 2.0.3 |
Downloaddetails
Bestand | |
---|---|
BP_CGN_C.zip |
- Aantal bestanden 1
- Aantal downloads 114
- Bestandsgrootte 51.46 KB
- Datum plaatsing 03/09/2020
- Laatst bijgewerkt 08/10/2024
- Versie 2.0.3