Uitgebreide informatie CGN

Het CGN wordt door de TST-Centrale geleverd op externe harde schijf of 33 dvd's: een annotatie-dvd en 32 audio-dvd's. De annotatie-dvd bevat o.a. alle transcripties, metadata, lexica en de frequentiegegevens. Ook vindt u hier de exploitatiesoftware Corex en alle documentatie. Op de 32 audio-dvd's staan alle 12.780 geluidsbestanden (*.wav). De annotatie-dvd is ook te gebruiken zonder de audio-dvd's.

Het Corpus Gesproken Nederlands is een databank die 900 uur (+/-9 miljoen woorden) hedendaagse Nederlandse spraak bevat, afkomstig van Vlamingen en Nederlanders. Het corpus omvat 12.780 spraakfragmenten waaronder spontane face-to-face conversaties, interviews, telefoondialogen, zakelijke onderhandelingen, discussies, debatten, lessen, reportages (radio en televisie), nieuwsbulletins, beschouwingen, lezingen, toespraken en voorgelezen tekst. Aan de spraakdata is een aanzienlijke hoeveelheid taalkundige data toegevoegd in diverse annotatielagen. De annotatielagen bevatten orthografische en fonetische transcripties, woordsoortinformatie, lemmata, syntactische en prosodische informatie. Bovendien werden de annotaties ook opgelijnd met het geluidsmateriaal.

Naast de spraakdata met de bijbehorende transcripties bevat het corpus ook lexica en frequentielijsten afgeleid van alle woordvormen die voorkomen in het corpus. Daarnaast is er metadata beschikbaar met informatie over de sprekers (leeftijd, herkomst, opleidingsniveau etc.) en de opnames (locatie, spreektempo, opnamedatum etc.).

Deze webcursus biedt u de mogelijkheid om per onderdeel van het CGN informatie op te vragen en hier opdrachten over te maken. Zo hoeft u niet de hele cursus in vaste volgorde te doorlopen. Per onderdeel wordt getracht om zo veel mogelijk aspecten en mogelijkheden van het corpus te demonstreren.

De speciaal ontwikkelde exploitatiesoftware die bij het corpus geleverd wordt, is Corex. Hiermee zijn veel verschillende soorten en uitgebreide zoekacties mogelijk. Het is niet noodzakelijk om Corex te gebruiken indien u zelf geavanceerde scripts kunt schrijven om uw zoekacties uit te voeren. In deze webcursus zijn de zoekacties in het CGN echter zo veel mogelijk toegespitst op Corex. Hier vindt u een korte inleiding in Corex.

Om de CGN-annotiefiles te bekijken (en dus geen zoekacties te doen), kunt u ook gebruikmaken van andere tools die meegeleverd werden met het Corpus Gesproken Nederlands, namelijk Praat en Portray.

Praat
Orthografische, fonetische en prosodische annotaties en de woordsegmentaties bekijken (en eventueel bewerken), kunt u met Praat. In dat programma is het mogelijk om meerdere annotatielagen tegelijk te bekijken en om het geluid af te spelen.

Praat is uitstekend geschikt voor fonetisch onderzoek : u kunt met behulp van het programma onderzoek doen naar spectrum, pitch, intensity, formants, pulses, etc.