Een deel van de data werd voorzien van een handmatig geverifieerde brede fonetische transcriptie. Dit houdt in dat een automatisch gegenereerde brede fonetische transcriptie aan de hand van het bijbehorende spraaksignaal werd geverifieerd en indien nodig gecorrigeerd. De transcripties zijn zogenoemde brede fonetische transcripties, hierbij wordt variatie van fonemen alleen gemarkeerd als dit binnen de gedefinieerde foneemset kan.
Hieronder wordt nader ingegaan op de fonetische transcriptie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot geven we een overzicht van de data die in deze uitgave beschikbaar zijn en verwijzen we naar een lijst met frequentie-informatie in verband met de fonetische transcripties.
Lees verder over
Het doel was het verkrijgen van een geverifieerde brede fonetische transcriptie van het gesproken materiaal die binnen de gedefinieerde foneemset blijft, waarin inserties, deleties en substituties van fonemen tot uiting komen. Graduele processen, zoals bijvoorbeeld mate van stemhebbendheid bij plosieven en fricatieven en zoals monoftongering of diftongering bij vocalen, worden niet getranscribeerd.
De motivatie met betrekking tot de
gekozen foneemset is hier te vinden (als .ps-bestand of als .pdf-bestand).
Om het transcriptieproces te vereenvoudigen, maar zeker ook om de consistentie tussen transcribenten te bewaken werd een automatisch gegenereerde transcriptie voorgegeven. De taak van de transcribent bestond er vervolgens uit de transcriptie zo aan te passen dat deze aansloot bij de feitelijke uitspraak van hetgeen gezegd werd.
Voor de verificatie van de voorgegenereerde automatische transcriptie is gebruikgemaakt van het programma PRAAT. Hiermee worden het spraaksignaal en de fonetische voorbeeldtranscriptie tegelijkertijd weergegeven, en kan het spraaksignaal per gewenst subdeel herhaaldelijk worden beluisterd. Alleen de voorgegenereerde transcriptie was zichtbaar, dus niet de orthografie die eraan ten grondslag lag. Voor de moeilijkere soorten spraak is gekozen deze in twee slagen te laten transcriberen, dus eerst werd de voorgegenereerde transcriptie geverifieerd en gecorrigeerd, waarna een andere transcribent dit resultaat nogmaals verifieerde en corrigeerde.
Meer informatie over de werkwijze en
de uiteindelijke transcriptiekwaliteit is te vinden in Goddijn en
Binnenpoorte (2003).
S. Goddijn & D. Binnenpoorte,
'Assessing Manually Corrected Broad Phonetic Transcriptions in the
Spoken Dutch Corpus', in Proceedings of 15th ICPhS, Barcelona,
Spain, pp. 1361-1364, 2003.
De regels voor de brede fonetische
transcriptie zijn vastgelegd in een protocol (Gillis 2001), waarin
tevens de symbolenset beschreven wordt die gebruikt werd. In
dit protocol worden enkele transcriptieregels gesteld om een hoge
consistentie in de uiteindelijke transcripties te verkrijgen. Een van
de belangrijkste regels was niet te veel te vertrouwen op de
voorbeeldtranscriptie en deze veranderen als daar aanleiding voor was.
Enkel in
geval van twijfel mocht de voorbeeldtranscriptie blijven staan. Naast
deze regels zijn een aantal aandachtspunten en speciale gevallen
opgesomd.
Gillis, S. 2001. Protocol voor brede
fonetische transcriptie. (Hier beschikbaar in .ps-
en .pdf-formaat.)
De brede fonetische transcripties zijn opgeslagen in de volgende formaten:
In Tabel 1 wordt een overzicht
gegeven van de data die in deze uitgave van het corpus beschikbaar
zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus
ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar
de beschrijving van de
corpusopbouw.
Tabel 1. Overzicht van beschikbare
data voorzien van een brede fonetische transcriptie
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
177.127
|
70.945 | 106.182 |
b.
|
Interviews met leraren Nederlands |
59.751
|
34.064 | 25.687 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
270.027
|
68.886
|
201.141
|
d.
|
Telefoondialogen opgenomen m.b.v. minidiskrecorder |
6.257
|
6.257 |
0
|
e.
|
Zakelijke onderhandelingen |
25.485
|
0 | 25.485 |
f. | Interviews en discussies uitgezonden op radio en televisie |
100.250
|
25.144 | 75.106 |
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
34.126
|
9.009
|
25.117 |
h.
|
Lessen |
36.064
|
10.103
|
25.961
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
35.116
|
10.130 | 24.986 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
32.744
|
7.679 | 25.065 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
32.601
|
7.305 | 25.296 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
32.502
|
7.431 | 25.071 |
m.
|
Missen, lezingen, plechtige toespraken |
7.077
|
1.893 | 5.184 |
n.
|
Colleges, voordrachten, lezingen |
23.056
|
8.143 | 14.913 |
o.
|
Voorgelezen teksten | 135.071 | 64.848 | 70.223 |
Totaal |
1.007.254
|
331.837 | 675.417 |
Op basis van de handmatig
geverifieerde data die beschikbaar zijn in deze uitgave van het corpus
is een frequentielijst gemaakt die inzicht geeft in de frequentie
waarmee bepaalde fonetische transcripties voor de woorden in het
kerncorpus voorkomen. Een beschrijving is te vinden op ../../lexicon/freq_lst.htm. De
frequentielijst zelf (fonalph.frq) is te vinden in de directory
/data/lexicon/freqlists/.