Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografische transcriptie is een woordelijke neerslag van wat er gezegd werd. Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in de transcriptie weergegeven.
Hieronder wordt nader ingegaan op de rol van de orthografische transcriptie in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot geven we een overzicht van de data die in deze uitgave beschikbaar zijn en verwijzen we naar de woordfrequentielijsten.
Het doel van de orthografische transcriptie van de data in het CGN was tweeledig. Ten eerste werd daarmee beoogd gebruikers van het corpus te voorzien van uiterst waardevolle informatie. Door deze zeer eenvoudige, symbolische representatie van het audiobestand is het bijvoorbeeld mogelijk eenvoudig door het corpus te navigeren, kunnen frequentietellingen worden gedaan, e.d. Samen met de POS-tagging en lemmatisering is het de enige vorm van transcriptie/annotatie die én voor het gehele corpus beschikbaar is én bovendien handmatig geverifieerd is. Ten tweede vormt de orthografische transcriptie het uitgangspunt waarop alle overige transcripties en annotaties zijn gebaseerd.
Gezien het belang van de orthografische transcriptie is er in de beginfase van het project uitgebreid nagedacht over wat de aard van de transcriptie diende te zijn (wat wordt hoe weergegeven) en op welke wijze kwalitatief hoogwaardige transcripties zouden kunnen worden verkregen. De neerslag hiervan is te vinden in het protocol voor orthografische transcriptie. Bij de opstelling van dit protocol werden de volgende uitgangspunten gehanteerd:
Om het transcriptieproces te vereenvoudigen werd gebruikgemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografische transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.
Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden zo veel mogelijk geplaatst in de natuurlijke pauzes tussen woorden (merk op: de markeringen vallen niet noodzakelijkerwijs samen met syntactische grenzen). In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.Gegeven de uitgangspunten die hierboven zijn weergegeven en daarbij de beschikbare tijd en middelen, werd een aantal criteria geformuleerd die vervolgens werden vastgelegd en de basis vormden voor het Protocol voor orthografische transcriptie (Goedertier & Goddijn 2000; hier beschikbaar in .ps- en .pdf-formaat). Dit zijn achtereenvolgens
Teneinde de orthografische transcriptie zo consistent mogelijk te laten zijn, werd de spelling van alle woorden tijdens het transcriptieproces online gecontroleerd met behulp van een elektronische spellingchecker. Als er een vermoedelijke fout werd geconstateerd, werd de transcribent verondersteld het desbetreffende woord te corrigeren of het te markeren met behulp van een van de speciale symbolen die daartoe in het protocol waren vastgelegd. Zo werden in het protocol speciale markeringen voorzien voor nieuwe (d.w.z. tot dan toe niet in het lexicon opgenomen) woorden, maar ook bijvoorbeeld voor afgebroken woorden, dialectwoorden, dialectisch uitgesproken woorden en woorden afkomstig uit een vreemde taal. De gemarkeerde woorden werden door een lexicoloog beoordeeld en desgewenst aan het lexicon toegevoegd.
Accuraatheid
De procedure voor het vervaardigen van
orthografische transcripties was erop gericht de accuraatheid van de
transcripten zo groot mogelijk te laten zijn. Nadat een transcribent
een eerste transcriptie had gemaakt waarbij hetgeen gezegd werd
woordelijk werd uitgeschreven en tevens om de twee à drie
seconden tijdsmarkeringen werden aangebracht, werd deze transcriptie
door een tweede transcribent gecontroleerd. Daarbij werd gecontroleerd
of hetgeen gezegd werd volledig en correct werd weergegeven (qua
spelling, maar ook voor wat betreft het gebruik van de vereiste
speciale markeringen en de toewijzing van spraak aan de juiste
spreker(s)). Ook werd gecontroleerd of de tijdsmarkeringen correct
waren aangebracht.
De accuraatheid van de orthografische transcripten werd aan een verdere controle onderworpen doordat bij de verdere verwerking van de data waarbij andere transcripties en annotaties werden aangebracht, vermeende onjuistheden steeds werden gerapporteerd. Deze rapportages waren aanleiding om de transcripties op die punten nogmaals te controleren en eventueel bij te stellen.
Helderheid
Er is geprobeerd het aantal regels in
het protocol zo gering mogelijk te laten zijn. Dit maakte het voor
transcribenten eenvoudiger om ze te onthouden en correct toe te passen.
In het protocol zijn niet alleen regels maar ook een groot aantal
voorbeelden opgenomen. Bij het ontwikkelen van het protocol werden de
ervaringen van transcribenten meegenomen. Het resultaat is een protocol
dat praktisch werkbaar is gebleken.
Literatuurverwijzingen
De orthografische transcripties zijn beschikbaar in twee formaten:
In Tabel 1 wordt een overzicht
gegeven van de data die in deze uitgave van het corpus beschikbaar
zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus
ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar
de beschrijving van
de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383 | 1.747.789 |
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554 | 249.879 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.232.636
|
489.100
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidiskrecorder |
853.371
|
343.167 |
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0 | 136.461 |
f. | Interviews en discussies uitgezonden op radio en televisie |
790.269
|
250.708 | 539.561 |
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509 |
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022 | 130.377 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206 | 90.866 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855 | 285.298 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386 | 80.167 |
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510 | 5.565 |
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067 | 61.834 |
o.
|
Voorgelezen teksten | 903.043 | 351.419 | 551.624 |
Totaal |
8.940.098
|
3.285.631 | 5.654.644 |
Op basis van de data die beschikbaar zijn in deze uitgave van het corpus zijn verschillende woordfrequentielijsten gemaakt die inzicht geven in de frequentie waarmee woorden in het corpus voorkomen. De verschillende typen frequentielijsten zijn de volgende: