Het Corpus Gesproken Nederlands bevat 12.780 geluidsfragmenten, die onderverdeeld zijn in 15 verschillende spraakcategorieën:
Component | Totaal a. woorden | VL | NL | |
---|---|---|---|---|
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383
|
1.747.789
|
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554
|
249.879
|
c.
|
Telefoondialogen opgenomen m.b.v. telefooncentrale |
1.208.633
|
465.096
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidiscrecorder |
853.371
|
343.167
|
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0
|
136.461
|
f.
|
Interviews en discussies uitgezonden op radio en televisie |
790.269
|
250.708
|
539.561
|
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509
|
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022
|
130.377
|
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206
|
90.866
|
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855
|
285.298
|
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386
|
80.167
|
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510
|
5.565
|
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067
|
61.834
|
o.
|
Voorgelezen teksten |
903.043
|
351.419
|
551.624
|
Totaal |
8.916.272
|
3.261.628
|
5.654.644
|
De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:
* |
er bestond met name behoefte aan spontaan gesproken data; |
* |
interactie werd gezien als een wezenlijk bestanddeel van gesproken communicatie en diende derhalve in ruime mate
vertegenwoordigd te zijn; |
* |
bepaalde in termen van de verschillende componenten onderscheiden variëteiten vertoonden een grotere mate aan diversiteit
dan andere. Voor heterogene componenten werden daarom een groter aantal fragmenten opgenomen om zo een redelijke spreiding
in de steekproef te kunnen aanbrengen; |
* |
de omvang van de fragmenten liep van component tot component uiteen : de lengte per fragment voor een gegeven component werd
bepaald aan de hand van een inschatting van hoe groot het fragment
diende te zijn ten einde een redelijk beeld te kunnen geven van de desbetreffende variëteit.
Daarbij speelde onder meer de 'natuurlijke' lengte van de spraak een rol: een nieuwsbericht op de radio is gewoonlijk van beduidend
kortere duur dan de gesproken tekst bij een documentaire. De totale omvang van een component was groter naarmate de gemiddelde
omvang van de fragmenten die erin voorkwamen toenam. |
* |
bepaalde data waren eenvoudiger te verzamelen dan andere; |
* |
teneinde van nut te kunnen zijn voor bepaalde toepassingsgebieden moest voldaan worden aan zekere minimumeisen.
Dit gold met name voor technologische toepassingen. |
Spreiding taalgebruikssituaties
Het corpus is ontworpen voor een grote diversiteit aan onderzoeksgebieden en toepassingen. Daarom zijn veel verschillende taalgebruikssituaties van het Nederlands vertegenwoordigd, in zo groot mogelijke hoeveelheden.
Monologen, dialogen en multilogenEen eerste onderscheid is gemaakt tussen monologen en situaties waarin twee en meer sprekers aan het woord zijn, de dialogen en multilogen. Het verschil tussen deze twee taalgebruikssituaties is evident: in een gesprek of discussie zijn andere spreekvaardigheden vereist dan bij het becommentariëren van een voetbalwedstrijd. Beurtwisselingen hebben uiteraard alleen plaats in situaties waar meerdere sprekers deelnemen.
Privé en publiekEen verder onderscheid is gemaakt naar de vooronderstelde toehoorder van de spraakuitingen: zijn ze bestemd voor publieke doeleinden, zoals Tweede Kamerdebatten en nieuwsbulletins, of zijn ze alleen bestemd voor degenen die eraan deelnemen, zoals spontane gesprekken aan de koffietafel? De publieke gesprekken zijn nog eens uitgesplitst naar al dan niet bestemd voor uitzending door radio of televisie.
Spontaan en voorbereidEen derde onderscheid betreft de mate van spontaniteit van de spraakuitingen. Klassiek is het onderscheid "spontaan" versus "voorgelezen", maar tussen deze twee uitersten bevindt zich een grijs gebied van spraak waar op z'n minst enige voorbereiding aan ten grondslag ligt, zoals lezingen en toespraken. Voor het CGN is gekozen voor het onderscheid "spontaan" versus "voorbereid": de laatste categorie bevat het hele spectrum aan voorbereide spraak, van enigszins voorbereid tot voorgelezen. Vanwege de ondervertegenwoordiging van dat materiaal in andere bronnen bevat het CGN relatief veel spontane spraak.
De spontane gesprekken zijn verder onderverdeeld in "direct" en "distanced". Daarbij wil "direct" zeggen dat de sprekers elkaar konden zien tijdens de gesprekken, en dus toegang hadden tot elkaars gebaren en gezichtsuitdrukking, terwijl dat in de "distanced" gesprekken niet mogelijk was (bijvoorbeeld omdat die via de telefoon werden gevoerd).
Verdeling opnamen tussen Vlaanderen en NederlandVoor het gehele corpus geldt dat, gezien het verschil in inwonertal tussen de twee gebieden, de bijdrage van Nederland tweemaal zo groot is als die van Vlaanderen. Dat betekent bijvoorbeeld dat waar in Vlaanderen 1 miljoen woorden spontane telefoondialogen zijn verzameld, dat er in Nederland 2 miljoen zijn. In een heel enkel geval is om praktische redenen afgeweken van deze verdeelsleutel.
Spreiding van sprekers
Er is, voorzover dat binnen desbetreffende spraakcomponent mogelijk was, een gebalanceerde opbouw nagestreefd van mannen en vrouwen, van jongeren en ouderen, van verschillende regio's van herkomst en van verschillende opleidingsniveaus.