Het project had tot doel een corpus
samen te stellen dat een plausibele steekproef zou vormen van het
hedendaags Nederlands zoals dat gesproken wordt in Vlaanderen en
Nederland. Een derde van het materiaal werd in Vlaanderen verzameld en
twee derde in Nederland. Er werd onderscheid gemaakt tussen het basiscorpus
enerzijds en het kerncorpus/de kerncorpora anderzijds.
De term basiscorpus verwijst naar het volledige corpus. Hiervan
zijn niet alleen opnames beschikbaar, ook werd al het materiaal
orthografisch getranscribeerd. In de orthografische transcriptie werden
bovendien korte stukjes van circa 3 seconden spraak aangeduid en
gelinkt met het geluidssignaal. Al het materiaal werd tevens
gelemmatiseerd en verrijkt met woordsoortinformatie. Voor een deel van
het corpus, aangeduid met de term kerncorpus, is een verdere
verrijking van de data beschikbaar. Dit omvat een brede fonetische
transcriptie, een segmentatie op woordniveau en/of een syntactische
en/of prosodische annotatie.
Idealiter is een corpus zoals het CGN zo samengesteld en van een zodanige omvang dat het optimaal bruikbaar is voor de diverse doelstellingen zoals die in de verschillende onderzoeksdisciplines en toepassingsgebieden worden nagestreefd. In de praktijk doen zich daarbij echter een aantal complicaties voor. Allereerst kan worden opgemerkt dat het gesproken Nederlands wordt gekenmerkt door een grote mate aan diversiteit en de interesses van verschillende gebruikersgroepen en de daaruit voortvloeiende vereisten ten aanzien van het corpus op een aantal punten blijken nogal uiteenlopend. Verder hebben we te maken met een aantal beperkende factoren die het ons onmogelijk maken in principe ongelimiteerd spraakdata te verzamelen, te annoteren en te distribueren. Onder die factoren zijn de volgende:
Voor nadere informatie over het
ontwerp van het basiscorpus en de motivatie daarvoor, zie hieronder.
Bij het ontwerp voor de opbouw van het Corpus Gesproken Nederlands is uitgegaan van een getrapte sampling. Daarbij werd om te beginnen op basis van een aantal situationele parameters een veertiental taalvariëteiten onderscheiden die aanvankelijk elk een component in het corpus vormden. Binnen elke component werd vervolgens een verdere detaillering aangebracht waarbij naast aanvullende situationele parameters ook sprekerkenmerken een rol speelden.
Het oorspronkelijke, globale ontwerp van het basiscorpus kan schematisch worden weergegeven als in Tabel 1. In deze tabel wordt tevens de toen beoogde omvang (in aantal woorden) per component weergegeven, totaal en afzonderlijk voor Vlaanderen en Nederland. Een toelichting hierop wordt verderop gegeven.
Tabel 1. Het
oorspronkelijke ontwerp van het basiscorpus (najaar 1998)
Component | VL | NL | |||||
---|---|---|---|---|---|---|---|
dialoog
/ multiloog 8.110.000
|
privé
6.635.000
|
spontaan
6.635.000
|
'direct'
3.460.000
|
1: conversaties
('face-to-face')
3.000.000
|
1.000.000
|
2.000.000
|
|
2: interviews
460.000
|
230.000
|
230.000
|
|||||
'distanced'
3.175.000
|
3: telefoondialogen
3.000.000
|
1.000.000
|
2.000.000
|
||||
4: zakelijke
onderhandelingen
175.000
|
0
|
175.000
|
|||||
publiek
1.475.000
|
uitgezonden
750.000
|
min of meer
voorbereid
750.000
|
5: interviews en
discussies
750.000
|
230.000
|
520.000
|
||
niet
uitgezonden
725.000
|
spontaan
725.000
|
6: discussies,
debatten, vergaderingen
375.000
|
130.000
|
245.000
|
|||
7: lessen
350.000
|
110.000
|
240.000
|
|||||
monoloog
1.890.000
|
privé
40.000
|
min of meer
voorbereid
40.000
|
8:
beschrijving van route of plaatjes
40.000
|
40.000
|
0
|
||
publiek
1.850.000
|
uitgezonden
950.000
|
spontaan
250.000
|
9: spontaan commentaar
250.000
|
70.000
|
180.000
|
||
min of meer voorbereid
700.000
|
10:
actualiteitenrubrieken, reportages
250.000
|
80.000
|
170.000
|
||||
11: nieuwsbulletins
250.000
|
80.000
|
170.000
|
|||||
12: beschouwingen,
commentaren
200.000
|
60.000
|
140.000
|
|||||
niet
uitgezonden
900.000
|
min of meer voorbereid
900.000
|
13: lezingen, toespraken
275.000
|
95.000
|
180.000
|
|||
14: voorgelezen tekst
625.000
(+375.000)
|
210.000
(+125.000)
|
415.000
(+250.000) |
In de opbouw van het corpus werd op
basis van het aantal sprekers een onderscheid gemaakt tussen monologen
enerzijds en dialogen/multilogen anderzijds. De verdere onderverdeling
tussen privé en publiek was van toepassing op beide.
Het
hier gehanteerde onderscheid tussen privé en publiek
was gebaseerd op het al dan niet aanwezig zijn van toehoorders.
Dialogen of gesprekken tussen meerdere personen die enkel bestemd waren
voor en gevoerd werden ten behoeve van de participanten - hoewel ze
mogelijkerwijs gehoord konden worden door anderen die niet aan het
gesprek deelnemen - werden aangeduid als privé. De als publiek
aangeduide dialogen of gesprekken werden gevoerd door de
gesprekspartners, maar waren nadrukkelijk bedoeld gehoord te worden
door anderen. In het laatste geval was het gespreksonderwerp veelal
vooraf vastgesteld en bekend bij de gesprekspartners. Dit in
tegenstelling tot als privé aangemerkte dialogen of gesprekken
waarin het onderwerp kon variëren.
Het onderscheid tussen 'direct' en 'distanced' had betrekking op het
gegeven of de gesprekspartner al dan niet toegang had tot gebaren die
door de ander tijdens het spreken gemaakt werden, kennis van de
omgeving waarin hun gesprekspartner zich bevond, e.d. Tot de
'distanced' dialogen werden bijvoorbeeld dialogen via de telefoon
gerekend.
Uitgaande van de globale opbouw zoals geschetst in Tabel 1, werd voor elk van de componenten van het corpus een verdere specificatie gemaakt waarbij onder andere aanvullende situationele parameters en sprekerkenmerken werden ingebracht daar waar dat zinvol was. De hier gehanteerde benadering bood een maximum aan flexibiliteit. Steekproefgroottes, sprekeraantallen, demografische spreiding, etc. konden per component nader worden bepaald. In het algemeen kan gesteld worden dat een ruime mate van spreiding werd nagestreefd in de selectie van sprekers, gespreksonderwerpen, gesprekssituaties, etc.
De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:
Hoewel gedurende het gehele CGN-project steeds van bovenstaand ontwerp en uitgangspunten werd uitgegaan, bleek de realisatie ervan vertraging op te lopen. Daarom werd tussentijds de omvang van enkele componenten die tot dan toe nog niet (volledig) gerealiseerd waren, bijgesteld. Ook kwam component 8 te vervallen. Bij de afsluiting van het project en de vaststelling van de definitieve structuur van het corpus werd geconstateerd dat een herschikking van gerealiseerde fragmenten en componenten beter zou aansluiten bij het toekomstig gebruik door diverse gebruikersgroepen. Dit resulteerde in het onderscheiden van de componenten zoals weergegeven in Tabel 2.
Tabel 2. In het corpus
onderscheiden componenten (versie 1.0 en 2.0)
Componenten: | |
---|---|
a.
|
Spontane conversaties ('face-to-face') |
b.
|
Interviews met leraren Nederlands |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
d. | Telefoondialogen opgenomen m.b.v. minidiskrecorder |
e. | Zakelijke onderhandelingen |
f. | Interviews en discussies uitgezonden op radio en televisie |
g. | Discussies, debatten, vergaderingen (m.n. politieke) |
h.
|
Lessen |
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
m.
|
Missen, lezingen, plechtige toespraken |
n.
|
Colleges, voordrachten, lezingen |
o.
|
Voorgelezen teksten |
Het zou te ver voeren hier in detail in te gaan op de samplingprocedure die voor elk van de componenten werd gevolgd. We beperken ons hier tot een kort overzicht van de verschillende samplingcriteria en de (mogelijke) invulling die daaraan werd gegeven. Merk op dat niet voor alle componenten (in gelijke mate) gebruikgemaakt werd van alle hier genoemde criteria.
Steekproef: eenheid en omvang
Voor het gehele corpus geldt als
minimale eenheid een fragment samenhangende discourse. De omvang van de
fragmenten kan uiteenlopen. In een aantal gevallen, zoals bij de
component 'voorgelezen tekst', is vanuit een specifiek
toepassingsgebied een minimumomvang als vereiste opgelegd. Over het
algemeen is gepoogd de fragmenten te laten samenvallen met hetgeen min
of meer een natuurlijke eenheid vormt in een groter geheel. Daarbij
werd gebruikgemaakt van voorgegeven breekpunten zoals de
sprekerwisseling in een dialoog, de wisseling van item in een
nieuwsbericht, etc.
Aantal sprekers per component Het
aantal sprekers per component is in principe variabel. Voor een aantal
componenten, nl. de spontane conversaties (component a), de interviews
(component b), de telefoondialogen (component c en d) en de voorgelezen
tekst (component o), werd het minimumaantal sprekers vooraf nader
gespecificeerd.
Sprekerkenmerken De
sprekerkenmerken die in meerdere of mindere mate, afhankelijk van de
component, een rol speelden in het bepalen van de steekproef zijn de
volgende: geslacht, leeftijd, geografische regio, sociaaleconomische
klasse en opleidingsniveau.
Kwaliteit van de opname
De kwaliteit van het signaal is
wisselend. Uiteraard is gepoogd de kwaliteit in alle gevallen zo hoog
mogelijk te laten zijn. Opnamecondities liepen echter nogal sterk
uiteen, waardoor het niet altijd mogelijk is gebleken dezelfde goede
kwaliteit te garanderen. Voor een
overzicht van de data die in het basiscorpus beschikbaar zijn en de
verdeling over de verschillende componenten verwijzen we naar het overzicht van beschikbare data.
Het kerncorpus omvat een selectie van het materiaal dat deel uitmaakt van het basiscorpus. De gedachte slechts voor een deel van het totale materiaal een verdere verrijking aan te brengen werd ingegeven door de (uiteindelijk toch) beperkte hoeveelheid beschikbare middelen. Bij de bepaling van de samenstelling van het kerncorpus speelden naast de beschikbare tijd en financiële middelen de volgende overwegingen een rol:
Samenstelling van het kerncorpus
De beoogde samenstelling van het
kerncorpus kan schematisch worden weergegeven als in Tabel 3. Er werd
uitgegaan van de veertien componenten die bij het oorspronkelijk
ontwerp voor de samenstelling van het basiscorpus
werden onderscheiden. Per component is vermeld welk deel ervan met welk
type annotatie nader zou worden verrijkt. Merk op dat in de tabel enkel
de omvang (in aantal woorden) van het te selecteren materiaal wordt
aangeduid. De specifieke invulling zou uiteraard medeafhankelijk zijn
van overwegingen zoals de kwaliteit van het spraaksignaal, de spreiding
over verschillende situationele contexten, sprekers, onderwerpen, etc.
Tabel 3.
Beoogde samenstelling van het kerncorpus (najaar 1998)
Component | Totaal aantal woorden in basiscorpus |
Hoeveelheid materiaal voorzien van een | |||
---|---|---|---|---|---|
en oplijning |
annotatie |
annotatie |
|||
1.
|
conversaties ('face-to-face') |
3.000.000
|
150.000
|
550.000
|
100.000
|
2.
|
interviews |
460.000
|
50.000
|
50.000
|
20.000
|
3.
|
telefoondialogen |
3.000.000
|
300.000
|
100.000
|
50.000
|
4. | zakelijke onderhandelingen |
175.000
|
15.000
|
15.000
|
10.000
|
5. | interviews en discussies |
750.000
|
75.000
|
75.000
|
10.000
|
6. | discussies, debatten, vergaderingen |
375.000
|
35.000
|
35.000
|
10.000
|
7. | lessen |
350.000
|
35.000
|
35.000
|
0
|
8.
|
beschrijving van route of plaatjes |
40.000
|
5.000
|
5.000
|
0
|
9.
|
spontaan commentaar |
250.000
|
27.500
|
27.500
|
10.000
|
10.
|
actualiteitenrubrieken, reportages |
250.000
|
25.000
|
25.000
|
10.000
|
11.
|
nieuwsbulletins |
250.000
|
27.500
|
27.500
|
10.000
|
12.
|
beschouwingen, commentaren |
200.000
|
25.000
|
25.000
|
10.000
|
13.
|
lezingen, toespraken |
275.000
|
30.000
|
30.000
|
10.000
|
14.
|
voorgelezen tekst |
625.000
(+ 375.000)
|
200.000
|
0
|
0
|
Totaal |
10.000.000
|
1.000.000
|
1.000.000
|
250.000
|
In het project zijn de beoogde doelstellingen m.b.t. het kerncorpus nagenoeg geheel gerealiseerd. Aangezien er een herschikking van fragmenten en componenten heeft plaatsgevonden, heeft dit uiteraard ook gevolgen gehad voor de indeling zoals die hierboven (Tabel 3) werd gepresenteerd. Voor een overzicht van de beschikbare data verwijzen we hier naar het overzicht van beschikbare data.