Lexicologische koppeling

Lexicologische koppeling

Alle woordvormen in het corpus zijn gelemmatiseerd. Daarbij werd het woord-voor-woordprincipe gehanteerd waarbij met elke woordvorm afzonderlijk een lemma werd geassocieerd. Dit principe werd ook toegepast in die situaties waar de woordvorm deel uitmaakte van een meerwoordsuitdrukking of waar het een onderdeel was van een scheidbaar werkwoord. In een afzonderlijke slag, hier lexicologische koppeling genoemd, werden in een later stadium de los geschreven delen van meerwoordsuitdrukkingen met elkaar verbonden en werd voor elk van de expressies een meerwoordslemma gepostuleerd. Via deze lemmata werden verwijzingen naar het lexicon opgenomen, om zo zoekacties op de afzonderlijke delen van de expressie vanuit het meerwoordslemma mogelijk te maken.

Hieronder wordt nader ingegaan op de lexicologische koppeling van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in deze uitgave beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data

Doel en motivatie

Om redenen van aansluiting bij bestaande annotatiestandaarden en meer praktische overwegingen, zoals vergaande automatisering van zowel de afzonderlijke annotatietrajecten als de oplijning (synchronisatie) van de resulterende coderingslagen, is gekozen voor het woord als primair annotatieniveau. Aangezien echter in diverse grammaticale en lexicologische theorieën meerledige uitdrukkingen een lexicale status hebben die vergelijkbaar is met afzonderlijke woordvormen, is besloten tot het markeren van een aantal meerwoordsstructuren. Deze uitdrukkingen zijn tevens opgenomen in het lexicon, zodat de gebruiker complexe zoekacties kan formuleren.

De volgende meerwoordsuitdrukkingen worden onderscheiden:

discontinu:

scheidbaar samengestelde werkwoorden (bv. opnemen, ademhalen)

continu:

ingeburgerde vreemdtalige uitdrukkingen (bv. et cetera, wishful thinking)
in- en uitheemse eigennamen en titels (bv. Berg En Dal, Avril Lavigne, De Morgen, De Pfaffs)

Ook de opname van andere meerwoordsstructuren is overwogen, zoals meerledige preposities (bij monde van, met het oog op) en vaste, idiomatische uitdrukkingen met grammaticale variabiliteit (in mijn/je/haar/zijn ... nopjes zijn, een modderfiguur slaan). De moeilijkheid om deze sets op een verantwoorde manier af te bakenen, in combinatie met de grote grammaticale variatie, heeft ons doen besluiten deze groepen niet te markeren. Voor twee andere categorieën, discontinue preposities (tussen ... in , van ... af) en discontinue voornaamwoordelijke bijwoorden (er ... doorheen, daar ... mee), werd lexicologische koppeling te moeilijk uitvoerbaar geacht, vanwege de complexe orthografische en grammaticale relatie met scheidbare werkwoorden. Meerledige samentrekkingen (in- en uitvoer, probleemformulering of -oplossing) zouden in een vervolgproject dienen te worden gekoppeld.

Terug naar het begin van deze pagina.

Werkwijze

Om het annotatieproces te vereenvoudigen, werden eerst alle gesproken fragmenten orthografisch getranscribeerd en voorzien van part-of-speechtags. Pas nadat deze taken waren uitgevoerd en de resultaten geverifieerd, werd de orthografie samen met de tags als invoer gebruikt om de lexicologische koppeling aan te sturen.

In verschillende lexicale bronnen en in het corpus werden de mogelijke scheidbaar samengestelde werkwoorden en vreemdtalige uitdrukkingen geïnventariseerd, zodat ze daarna automatisch in het corpus gemarkeerd konden worden als potentiële meerwoordsuitdrukkingen. Hetzelfde werd gedaan voor alle continue reeksen hoofdletterwoorden, die werden aangemerkt als potentiële meerledige eigennamen of titels. Daarna werd een handmatige proefronde op 1 miljoen corpustokens uitgevoerd, om daarbinnen alle mogelijke meerwoorden op juistheid te controleren en het koppelingsprotocol aan te scherpen.

Tot slot werd het gehele corpus automatisch voorzien van mogelijke meerwoordsuitdrukkingen, en daarna voor elke uitdrukking handmatig geverifieerd. In de POS-annotaties en de outputfiles van de lexicologische koppeling, de .tag- en de .lxk-files, werden numerieke verwijzingen aangebracht naar de meerwoordslemmata van de geverifieerde meerledige expressies.

Terug naar het begin van deze pagina.

Protocol

Voor de lexicologische koppeling werd een afzonderlijk protocol ontwikkeld:

Piepenbrock, R. 2004. Taalkundig protocol voor de lexicologische koppeling. (Hier beschikbaar in .ps- en .pdf-formaat.)

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De informatie die werd aangebracht in de lexicologische koppeling is opgeslagen in de volgende bestanden:

lexicale bestanden van het type .lex. Hierbij gaat het om een XML-formaat. Meerwoordsuitdrukkingen zijn opgenomen in het bestand cgnmlex.lex. Deze bestanden zijn te vinden in de directory /data/lexicon/xml/.
lexicale bestanden van het type .txt. Hierbij gaat het om een ASCII-formaat. Meerwoordsuitdrukkingen zijn opgenomen in het bestand cgnmlex.txt. Deze bestanden zijn te vinden in de directory /data/lexicon/text/.
tekstuele bestanden van het type .lxk. Hierin zijn meerwoordsuitdrukkingen opgenomen met verwijzingen naar de lexica. Deze bestanden hebben een XML-formaat. Deze bestanden zijn te vinden in de directory /data/annot/xml/lxk/.
tekstuele bestanden van het type .tag. Hierin zijn meerwoordsuitdrukkingen opgenomen met verwijzingen naar de lexica. Deze bestanden hebben een XML-formaat. Deze bestanden zijn te vinden in de directory /data/annot/xml/tag/.

Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het .lex-formaat, het .lxk-formaat en het .tag-formaat.

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in deze uitgave van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data

Component Totaal aantal
woorden

VL NL

a.
Spontane conversaties ('face-to-face')
2.626.172
878.383 1.747.789

b.
Interviews met leraren Nederlands
565.433
315.554 249.879

c.
Telefoondialogen opgenomen m.b.v. platform
1.232.636

489.100

743.537

d.
Telefoondialogen opgenomen m.b.v. minidiskrecorder
853.371
343.167
510.204

e.
Zakelijke onderhandelingen
136.461
0 136.461

f. Interviews en discussies uitgezonden op radio en televisie
790.269
250.708 539.561

g.
Discussies, debatten, vergaderingen (m.n. politieke)
360.328

138.819
221.509

h.
Lessen
405.409

105.436

299.973

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
78.022 130.377

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
95.206 90.866

k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
82.855 285.298

l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
65.386 80.167

m.
Missen, lezingen, plechtige toespraken
18.075
12.510 5.565

n.
Colleges, voordrachten, lezingen
140.901
79.067 61.834

o.
Voorgelezen teksten 903.043 351.419 551.624

Totaal
8.940.098
3.285.631 5.654.644

Component	Totaal aantal woorden
VL	NL
a.	Spontane conversaties ('face-to-face')	2.626.172	878.383	1.747.789
b.	Interviews met leraren Nederlands	565.433	315.554	249.879
c.	Telefoondialogen opgenomen m.b.v. platform	1.232.636	489.100	743.537
d.	Telefoondialogen opgenomen m.b.v. minidiskrecorder	853.371	343.167	510.204
e.	Zakelijke onderhandelingen	136.461	0	136.461
f.	Interviews en discussies uitgezonden op radio en televisie	790.269	250.708	539.561
g.	Discussies, debatten, vergaderingen (m.n. politieke)	360.328	138.819	221.509
h.	Lessen	405.409	105.436	299.973
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	208.399	78.022	130.377
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	186.072	95.206	90.866
k.	Nieuwsbulletins uitgezonden op radio en televisie	368.153	82.855	285.298
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	145.553	65.386	80.167
m.	Missen, lezingen, plechtige toespraken	18.075	12.510	5.565
n.	Colleges, voordrachten, lezingen	140.901	79.067	61.834
o.	Voorgelezen teksten	903.043	351.419	551.624
Totaal	8.940.098	3.285.631	5.654.644

Terug naar het begin van deze pagina.