Alle woordvormen in het corpus zijn gelemmatiseerd. Daarbij werd het woord-voor-woordprincipe gehanteerd waarbij met elke woordvorm afzonderlijk een lemma werd geassocieerd. Dit principe werd ook toegepast in die situaties waar de woordvorm deel uitmaakte van een meerwoordsuitdrukking of waar het een onderdeel was van een scheidbaar werkwoord. In een afzonderlijke slag, hier lexicologische koppeling genoemd, werden in een later stadium de los geschreven delen van meerwoordsuitdrukkingen met elkaar verbonden en werd voor elk van de expressies een meerwoordslemma gepostuleerd. Via deze lemmata werden verwijzingen naar het lexicon opgenomen, om zo zoekacties op de afzonderlijke delen van de expressie vanuit het meerwoordslemma mogelijk te maken.
Hieronder wordt nader ingegaan op de
lexicologische koppeling van de data in het CGN en de doelstellingen
die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd
ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt
informatie gegeven over de bestandstypen en -formaten. Tot slot wordt
een overzicht gegeven van de data die in deze uitgave beschikbaar zijn.
Lees verder over
Om redenen van aansluiting bij bestaande annotatiestandaarden en meer praktische overwegingen, zoals vergaande automatisering van zowel de afzonderlijke annotatietrajecten als de oplijning (synchronisatie) van de resulterende coderingslagen, is gekozen voor het woord als primair annotatieniveau. Aangezien echter in diverse grammaticale en lexicologische theorieën meerledige uitdrukkingen een lexicale status hebben die vergelijkbaar is met afzonderlijke woordvormen, is besloten tot het markeren van een aantal meerwoordsstructuren. Deze uitdrukkingen zijn tevens opgenomen in het lexicon, zodat de gebruiker complexe zoekacties kan formuleren.
De volgende meerwoordsuitdrukkingen worden onderscheiden:
Om het annotatieproces te vereenvoudigen, werden eerst alle gesproken fragmenten orthografisch getranscribeerd en voorzien van part-of-speechtags. Pas nadat deze taken waren uitgevoerd en de resultaten geverifieerd, werd de orthografie samen met de tags als invoer gebruikt om de lexicologische koppeling aan te sturen.
In verschillende lexicale bronnen en in het corpus werden de mogelijke scheidbaar samengestelde werkwoorden en vreemdtalige uitdrukkingen geïnventariseerd, zodat ze daarna automatisch in het corpus gemarkeerd konden worden als potentiële meerwoordsuitdrukkingen. Hetzelfde werd gedaan voor alle continue reeksen hoofdletterwoorden, die werden aangemerkt als potentiële meerledige eigennamen of titels. Daarna werd een handmatige proefronde op 1 miljoen corpustokens uitgevoerd, om daarbinnen alle mogelijke meerwoorden op juistheid te controleren en het koppelingsprotocol aan te scherpen.
Tot slot werd het gehele corpus
automatisch voorzien van mogelijke meerwoordsuitdrukkingen, en daarna
voor elke uitdrukking handmatig geverifieerd. In de POS-annotaties en
de outputfiles van de lexicologische koppeling, de .tag- en de .lxk-files,
werden numerieke verwijzingen aangebracht naar de meerwoordslemmata van
de geverifieerde meerledige expressies.
Voor de lexicologische koppeling werd een afzonderlijk protocol ontwikkeld:
Piepenbrock, R. 2004. Taalkundig
protocol voor de lexicologische koppeling. (Hier beschikbaar in .ps- en .pdf-formaat.)
De informatie die werd aangebracht in de lexicologische koppeling is opgeslagen in de volgende bestanden:
In Tabel 1 wordt een overzicht gegeven van de data die in deze uitgave van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383 | 1.747.789 |
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554 | 249.879 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.232.636
|
489.100
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidiskrecorder |
853.371
|
343.167 |
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0 | 136.461 |
f. | Interviews en discussies uitgezonden op radio en televisie |
790.269
|
250.708 | 539.561 |
g.
|
Discussies, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509 |
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022 | 130.377 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206 | 90.866 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855 | 285.298 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386 | 80.167 |
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510 | 5.565 |
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067 | 61.834 |
o.
|
Voorgelezen teksten | 903.043 | 351.419 | 551.624 |
Totaal |
8.940.098
|
3.285.631 | 5.654.644 |