Geluidsfragmenten

Informatie

Het Corpus Gesproken Nederlands bevat 12.780 geluidsfragmenten, die onderverdeeld zijn in 15 verschillende spraakcategorieën:

 Component Totaal a. woorden VL NL
a.
 Spontane conversaties ('face-to-face')
2.626.172
878.383
1.747.789
b.
 Interviews met leraren Nederlands
565.433
315.554
249.879
c.
 Telefoondialogen opgenomen m.b.v. telefooncentrale
1.208.633
465.096
743.537
d.
 Telefoondialogen opgenomen m.b.v. minidiscrecorder
853.371
343.167
510.204
e.
 Zakelijke onderhandelingen
136.461
0
136.461
f.
 Interviews en discussies uitgezonden op radio en televisie
790.269
250.708
539.561
g.
 Discussies, debatten, vergaderingen (m.n. politieke)
360.328
138.819
221.509
h.
 Lessen
405.409
105.436
299.973
i.
 Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
78.022
130.377
j.
 Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
95.206
90.866
k.
 Nieuwsbulletins uitgezonden op radio en televisie
368.153
82.855
285.298
l.
 Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
65.386
80.167
m.
 Missen, lezingen, plechtige toespraken
18.075
12.510
5.565
n.
 Colleges, voordrachten, lezingen
140.901
79.067
61.834
o.
 Voorgelezen teksten
903.043
351.419
551.624
Totaal
8.916.272
  3.261.628
  5.654.644

De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:

*
er bestond met name behoefte aan spontaan gesproken data;
*
 
interactie werd gezien als een wezenlijk bestanddeel van gesproken communicatie en diende derhalve in ruime mate vertegenwoordigd te zijn;
*
 
 
 
bepaalde in termen van de verschillende componenten onderscheiden variëteiten vertoonden een grotere mate aan diversiteit dan andere. Voor heterogene componenten werden daarom een groter aantal fragmenten opgenomen om zo een redelijke spreiding in de steekproef te kunnen aanbrengen;
*
 
 
 
 
 
 
de omvang van de fragmenten liep van component tot component uiteen : de lengte per fragment voor een gegeven component werd bepaald aan de hand van een inschatting van hoe groot het fragment diende te zijn ten einde een redelijk beeld te kunnen geven van de desbetreffende variëteit. Daarbij speelde onder meer de 'natuurlijke' lengte van de spraak een rol: een nieuwsbericht op de radio is gewoonlijk van beduidend kortere duur dan de gesproken tekst bij een documentaire. De totale omvang van een component was groter naarmate de gemiddelde omvang van de fragmenten die erin voorkwamen toenam.
*
bepaalde data waren eenvoudiger te verzamelen dan andere;
*
 
teneinde van nut te kunnen zijn voor bepaalde toepassingsgebieden moest voldaan worden aan zekere minimumeisen. Dit gold met name voor technologische toepassingen.

 
Spreiding taalgebruikssituaties

Het corpus is ontworpen voor een grote diversiteit aan onderzoeksgebieden en toepassingen. Daarom zijn veel verschillende taalgebruikssituaties van het Nederlands vertegenwoordigd, in zo groot mogelijke hoeveelheden.

Monologen, dialogen en multilogen

Een eerste onderscheid is gemaakt tussen monologen en situaties waarin twee en meer sprekers aan het woord zijn, de dialogen en multilogen. Het verschil tussen deze twee taalgebruikssituaties is evident: in een gesprek of discussie zijn andere spreekvaardigheden vereist dan bij het becommentariëren van een voetbalwedstrijd. Beurtwisselingen hebben uiteraard alleen plaats in situaties waar meerdere sprekers deelnemen.

Privé en publiek

Een verder onderscheid is gemaakt naar de vooronderstelde toehoorder van de spraakuitingen: zijn ze bestemd voor publieke doeleinden, zoals Tweede Kamerdebatten en nieuwsbulletins, of zijn ze alleen bestemd voor degenen die eraan deelnemen, zoals spontane gesprekken aan de koffietafel? De publieke gesprekken zijn nog eens uitgesplitst naar al dan niet bestemd voor uitzending door radio of televisie.

Spontaan en voorbereid

Een derde onderscheid betreft de mate van spontaniteit van de spraakuitingen. Klassiek is het onderscheid "spontaan" versus "voorgelezen", maar tussen deze twee uitersten bevindt zich een grijs gebied van spraak waar op z'n minst enige voorbereiding aan ten grondslag ligt, zoals lezingen en toespraken. Voor het CGN is gekozen voor het onderscheid "spontaan" versus "voorbereid": de laatste categorie bevat het hele spectrum aan voorbereide spraak, van enigszins voorbereid tot voorgelezen. Vanwege de ondervertegenwoordiging van dat materiaal in andere bronnen bevat het CGN relatief veel spontane spraak.

De spontane gesprekken zijn verder onderverdeeld in "direct" en "distanced". Daarbij wil "direct" zeggen dat de sprekers elkaar konden zien tijdens de gesprekken, en dus toegang hadden tot elkaars gebaren en gezichtsuitdrukking, terwijl dat in de "distanced" gesprekken niet mogelijk was (bijvoorbeeld omdat die via de telefoon werden gevoerd).

Verdeling opnamen tussen Vlaanderen en Nederland

Voor het gehele corpus geldt dat, gezien het verschil in inwonertal tussen de twee gebieden, de bijdrage van Nederland tweemaal zo groot is als die van Vlaanderen. Dat betekent bijvoorbeeld dat waar in Vlaanderen 1 miljoen woorden spontane telefoondialogen zijn verzameld, dat er in Nederland 2 miljoen zijn. In een heel enkel geval is om praktische redenen afgeweken van deze verdeelsleutel.

 
Spreiding van sprekers

Er is, voorzover dat binnen desbetreffende spraakcomponent mogelijk was, een gebalanceerde opbouw nagestreefd van mannen en vrouwen, van jongeren en ouderen, van verschillende regio's van herkomst en van verschillende opleidingsniveaus.