In deze uitgave zijn de eindresultaten beschikbaar zoals die zijn voortgekomen uit het project Corpus Gesproken Nederlands. Deze resultaten omvatten onder meer de geluidsfragmenten en alle bijbehorende transcripties en annotaties, documentatie, het CGN-lexicon en het exploitatieprogramma COREX.
Hieronder volgt een overzicht van de data die voor de verschillende componenten van het corpus in deze versie beschikbaar zijn. Voor een overzicht van de fragmenten per component, zie onder geluidsfragmenten.
Tabel 1 geeft een overzicht van de data die men in het basiscorpus aantreft. Voor alle data is een orthografische transcriptie beschikbaar. Daarnaast heeft er een verrijking plaatsgevonden met woordsoortinformatie (vervat in POS-tags), worden de lemmata aangeduid, is er een automatisch gegenereerde fonetische transcriptie beschikbaar, en zijn het signaal en de orthografische transcriptie automatisch gekoppeld op woordniveau.
Component | Totaal aantal woorden | VL | NL | |
---|---|---|---|---|
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383
|
1.747.789
|
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554
|
249.879
|
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.232.636
|
489.100
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
853.371
|
343.167
|
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0
|
136.461
|
f.
|
Interviews en discussie uitgezonden op radio en televisie |
790.269
|
250.708
|
539.561
|
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509
|
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022
|
130.377
|
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206
|
90.866
|
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855
|
285.298
|
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386
|
80.167
|
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510
|
5.565
|
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067
|
61.834
|
o.
|
Voorgelezen teksten |
903.043
|
351.419
|
551.624
|
Totaal |
8.940.098
|
3.285.631
|
5.654.644
|
Voor meer informatie over
In Tabel 2a en 2b wordt een overzicht gegeven van de additionele transcripties en/of annotaties die voor de verschillende fragmenten beschikbaar zijn. Voor dat deel van de data waarvoor een handmatig geverifieerd fonetisch transcript beschikbaar is, is tevens de koppeling op woordniveau van het orthografisch transcript aan het geluidssignaal handmatig geverifieerd. Tabel 2a heeft betrekking op de Nederlandse data, Tabel 2b geeft een overzicht van de Vlaamse data. Voor verdere details zie onder metadata (fragmentgegevens).
Voor meer informatie over
Component |
Hoeveelheid materiaal voorzien van een
|
|||
---|---|---|---|---|
fonetisch transcript
|
syntactische annotatie
|
prosodische annotatie
|
||
a.
|
Spontane conversaties ('face-to-face') |
106.182
|
300.368
|
37.406
|
b.
|
Interviews met leraren Nederlands |
25.687
|
25.687
|
7.596
|
c.
|
Telefoondialogen opgenomen m.b.v. platform |
201.141
|
69.933
|
20.070
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
0
|
0
|
0
|
e.
|
Zakelijke onderhandelingen |
25.485
|
25.485
|
7.485
|
f.
|
Interviews en discussies uitgezonden op radio en televisie |
75.106
|
75.106
|
7.537
|
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
25.117
|
25.117
|
7.678
|
h.
|
Lessen |
25.961
|
25.961
|
0
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
24.986
|
24.986
|
5.866
|
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
25.065
|
25.065
|
5.617
|
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
25.296
|
25.384
|
7.437
|
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
25.071
|
25.071
|
7.541
|
m.
|
Missen, lezingen en plechtige toespraken |
5.184
|
5.184
|
978
|
n.
|
Colleges, voordrachten, lezingen |
14.913
|
14.913
|
6.577
|
o.
|
Voorgelezen teksten |
70.223
|
0
|
0
|
Totaal |
675.417
|
668.260
|
121.788
|
Component |
Hoeveelheid materiaal voorzien van een
|
|||
---|---|---|---|---|
fonetisch transcript
|
syntactische annotatie
|
prosodische annotatie
|
||
a.
|
Spontane conversaties ('face-to-face') |
70.945
|
146.745
|
49.988
|
b.
|
Interviews met leraren Nederlands |
34.064
|
34.064
|
7.667
|
c.
|
Telefoondialogen opgenomen m.b.v. platform |
68.886
|
19.886
|
19.874
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
6.257
|
6.257
|
0
|
e.
|
Zakelijke onderhandelingen |
0
|
0
|
0
|
f.
|
Interviews en discussies uitgezonden op radio en televisie |
25.144
|
25.144
|
10.007
|
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
9.009
|
9.009
|
5.414
|
h.
|
Lessen |
10.103
|
10.103
|
0
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
10.130
|
10.130
|
6.002
|
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
7.679
|
7.679
|
6.054
|
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
7.305
|
7.305
|
6.248
|
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
7.431
|
7.431
|
5.998
|
m.
|
Missen, lezingen en plechtige toespraken |
1.893
|
1.893
|
1.124
|
n.
|
Colleges, voordrachten, lezingen |
8.143
|
8.143
|
3.880
|
o.
|
Voorgelezen teksten |
64.848
|
44.144
|
0
|
Totaal |
331.837
|
337.933
|
122.256
|
Per component is een overzicht beschikbaar van de fragmenten in deze uitgave. Ook wordt hier aangegeven op welke dvd's de geluidsfiles te vinden zijn. Voor meer gedetailleerde informatie over deze fragmenten (aard, duur, sprekers, annotaties, etc.) verwijzen we u naar de metadata.