Online CGN-cursus

Het Corpus Gesproken Nederlands bevat 12.780 geluidsfragmenten, die onderverdeeld zijn in 15 verschillende spraakcategorieën:

Component		Totaal a. woorden	VL	NL
a.	Spontane conversaties ('face-to-face')	2.626.172	878.383	1.747.789
b.	Interviews met leraren Nederlands	565.433	315.554	249.879
c.	Telefoondialogen opgenomen m.b.v. telefooncentrale	1.208.633	465.096	743.537
d.	Telefoondialogen opgenomen m.b.v. minidiscrecorder	853.371	343.167	510.204
e.	Zakelijke onderhandelingen	136.461	0	136.461
f.	Interviews en discussies uitgezonden op radio en televisie	790.269	250.708	539.561
g.	Discussies, debatten, vergaderingen (m.n. politieke)	360.328	138.819	221.509
h.	Lessen	405.409	105.436	299.973
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	208.399	78.022	130.377
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	186.072	95.206	90.866
k.	Nieuwsbulletins uitgezonden op radio en televisie	368.153	82.855	285.298
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	145.553	65.386	80.167
m.	Missen, lezingen, plechtige toespraken	18.075	12.510	5.565
n.	Colleges, voordrachten, lezingen	140.901	79.067	61.834
o.	Voorgelezen teksten	903.043	351.419	551.624
Totaal		8.916.272	3.261.628	5.654.644

De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:

*	er bestond met name behoefte aan spontaan gesproken data;
*	interactie werd gezien als een wezenlijk bestanddeel van gesproken communicatie en diende derhalve in ruime mate vertegenwoordigd te zijn;
*	bepaalde in termen van de verschillende componenten onderscheiden variëteiten vertoonden een grotere mate aan diversiteit dan andere. Voor heterogene componenten werden daarom een groter aantal fragmenten opgenomen om zo een redelijke spreiding in de steekproef te kunnen aanbrengen;
*	de omvang van de fragmenten liep van component tot component uiteen : de lengte per fragment voor een gegeven component werd bepaald aan de hand van een inschatting van hoe groot het fragment diende te zijn ten einde een redelijk beeld te kunnen geven van de desbetreffende variëteit. Daarbij speelde onder meer de 'natuurlijke' lengte van de spraak een rol: een nieuwsbericht op de radio is gewoonlijk van beduidend kortere duur dan de gesproken tekst bij een documentaire. De totale omvang van een component was groter naarmate de gemiddelde omvang van de fragmenten die erin voorkwamen toenam.
*	bepaalde data waren eenvoudiger te verzamelen dan andere;
*	teneinde van nut te kunnen zijn voor bepaalde toepassingsgebieden moest voldaan worden aan zekere minimumeisen. Dit gold met name voor technologische toepassingen.

Spreiding taalgebruikssituaties

Het corpus is ontworpen voor een grote diversiteit aan onderzoeksgebieden en toepassingen. Daarom zijn veel verschillende taalgebruikssituaties van het Nederlands vertegenwoordigd, in zo groot mogelijke hoeveelheden.

Monologen, dialogen en multilogen

Een eerste onderscheid is gemaakt tussen monologen en situaties waarin twee en meer sprekers aan het woord zijn, de dialogen en multilogen. Het verschil tussen deze twee taalgebruikssituaties is evident: in een gesprek of discussie zijn andere spreekvaardigheden vereist dan bij het becommentariëren van een voetbalwedstrijd. Beurtwisselingen hebben uiteraard alleen plaats in situaties waar meerdere sprekers deelnemen.

Privé en publiek

Een verder onderscheid is gemaakt naar de vooronderstelde toehoorder van de spraakuitingen: zijn ze bestemd voor publieke doeleinden, zoals Tweede Kamerdebatten en nieuwsbulletins, of zijn ze alleen bestemd voor degenen die eraan deelnemen, zoals spontane gesprekken aan de koffietafel? De publieke gesprekken zijn nog eens uitgesplitst naar al dan niet bestemd voor uitzending door radio of televisie.

Spontaan en voorbereid

Een derde onderscheid betreft de mate van spontaniteit van de spraakuitingen. Klassiek is het onderscheid "spontaan" versus "voorgelezen", maar tussen deze twee uitersten bevindt zich een grijs gebied van spraak waar op z'n minst enige voorbereiding aan ten grondslag ligt, zoals lezingen en toespraken. Voor het CGN is gekozen voor het onderscheid "spontaan" versus "voorbereid": de laatste categorie bevat het hele spectrum aan voorbereide spraak, van enigszins voorbereid tot voorgelezen. Vanwege de ondervertegenwoordiging van dat materiaal in andere bronnen bevat het CGN relatief veel spontane spraak.

De spontane gesprekken zijn verder onderverdeeld in "direct" en "distanced". Daarbij wil "direct" zeggen dat de sprekers elkaar konden zien tijdens de gesprekken, en dus toegang hadden tot elkaars gebaren en gezichtsuitdrukking, terwijl dat in de "distanced" gesprekken niet mogelijk was (bijvoorbeeld omdat die via de telefoon werden gevoerd).

Verdeling opnamen tussen Vlaanderen en Nederland

Voor het gehele corpus geldt dat, gezien het verschil in inwonertal tussen de twee gebieden, de bijdrage van Nederland tweemaal zo groot is als die van Vlaanderen. Dat betekent bijvoorbeeld dat waar in Vlaanderen 1 miljoen woorden spontane telefoondialogen zijn verzameld, dat er in Nederland 2 miljoen zijn. In een heel enkel geval is om praktische redenen afgeweken van deze verdeelsleutel.

Spreiding van sprekers

Er is, voorzover dat binnen desbetreffende spraakcomponent mogelijk was, een gebalanceerde opbouw nagestreefd van mannen en vrouwen, van jongeren en ouderen, van verschillende regio's van herkomst en van verschillende opleidingsniveaus.

Geluidsfragmenten

Informatie