Het CGN-meerwoordslexicon (Versie 2.0)

	7 april 2005

	Richard Piepenbrock
	Mila Groot
	Raffaela Vlot
	Maarten Jansonius

Algemene informatie

Het CGN-meerwoordslexicon, zoals dat geleverd wordt als onderdeel van Versie 2.0 van het CGN-corpus, is gebaseerd op een inventarisatie van alle meerwoordsuitdrukkingen die voorkomen in een reeks bronbestanden (CELEX ¹, RBN ², Woordenlijst Nederlandse Taal (Groene Boekje, 1995), Corpus Uit den Boogaart ³ en het Van Dale Groot Woordenboek der Nederlandse Taal ⁴), aangevuld met alle in het CGN-corpus aangetroffen meerledige expressies. Het lexicon vermeldt alleen die meerwoordsuitdrukkingen die in het corpus voorkomen.

Formaat en inhoud van het CGN-meerwoordslexicon

Het lexicon wordt geleverd in twee fileformaten:

Een standaard tekstfile (platte ASCII) met als naam cgnmlex_2.0.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
Een XML-file met als naam cgnmlex_2.0.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) mlex_2.0.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.

Het CGN-meerwoordslexicon telt 11 kolommen. De beide lexiconfiles zijn geordend op Orthografie Meerwoord en vervolgens op Woordsoort Meerwoord, Id-Nummer Meerwoordslemma en Volgnummer van de leden binnen de meerwoordsuitdrukking.

Aantal unieke meerwoordsuitdrukkingen 23.584

Aantal unieke meerwoordslemmata 18.593

Totaal aantal meerwoordsingangen 55.021

Inhoud van de lexiconvelden

CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][ &'*-;])+

Orthografische representatie van de meerwoordsuitdrukking. Het flexieparadigma behorend bij het meerwoordslemma is hier opgenomen, voor zover die flexies voorkomen in het CGN-corpus. Diakritische tekens worden weergegeven in SGML-formaat, in de volgende standaardsequentie:

"&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

In concreto:

"&" + "a" + "grave" + ";"

"c" "acute" (= aigu)

"e" "circ" (= circonflexe)

"i" "uml" (= trema)

"n" "cedil" (= cedille)

"o" "tilde"

"u" "ring"

"A"

"C"

"E"

"I"

"N"

"O"

"U"

b.v. 'à la carte' voor 'à la carte'

en

'Gustaf Åkermans' voor 'Gustaf Åkermans'

Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&'.

CGN_MLEXICON.Volgnummer ::= [1-9]+

Dit nummer geeft de positie van de woordvorm aan in de zin ten opzichte van de andere leden van de meerwoordsuitdrukking.
CGN_MLEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

Orthografische representatie van de woordvorm, d.w.z. de afzonderlijke leden van de meerwoordsuitdrukking. Diakritische tekens als bij woordvorm.
CGN_MLEXICON.Woordsoort Woordvorm ::=

"ADJ(" waarde ("," waarde)* ")" |

"BW("")" |

"LID(" waarde ("," waarde)* ") |

"N(" waarde ("," waarde)* ")" |

"SPEC(deeleigen)" |

"SPEC(meta)" |

"SPEC(onverst)" |

"SPEC(vreemd)" |

"TSW()" |

"TW(" waarde ("," waarde)* ")" |

"VG(" waarde ")" |

"VNW(" waarde ("," waarde)* ")" |

"VZ(" waarde ")" |

"WW(" waarde ("," waarde)* ")"

De woordsoort van de woordvorm, d.w.z. van de afzonderlijke leden van de meerwoordsuitdrukking. Waarden voor de open woordklassen volgens het document Part of Speech Tagging en Lemmatisering (Van Eynde 2003):

ADJ

adjectief

BW

bijwoord

LID

lidwoord

N

substantief

SPEC(deeleigen)

code voor deel van een meerledige eigennaam

SPEC(meta)

code voor woord in zelfnoemfunctie

SPEC(onverst)

code voor onverstaanbare uiting

SPEC(vreemd)

code voor uiting in vreemde taal of niet ingeburgerd leenwoord

TSW

tussenwerpsel

TW

telwoord

VG

voegwoord

VNW

voornaamwoord

VZ

voorzetsel

WW

werkwoord
CGN_MLEXICON.Woordsoort Meerwoord

De woordsoort van de meerwoordsuitdrukking, indien men de gehele uitdrukking grammaticaal als één woord wenst te beschouwen. Waarden als bij de woordsoort van de woordvorm, met de volgende aanvulling:

COMB(eigen)

code voor meerledige eigennaam of meerledige titel waarvoor geen nadere attributen als genus en getal zijn vastgesteld
CGN_LEXICON.Id-Nummer Meerwoordslemma ::= [0-9]+

Volgnummer (Id = 'identificatie') dat aangeeft welke meerwoordsuitdrukkingen kunnen worden beschouwd als behorend tot één flexieparadigma. Het onderscheid is alleen relevant voor scheidbaar samengestelde werkwoorden. Het vóórkomen van orthografisch identieke (meerwoords)lemmata met verschillende Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische (b.v. sterke of zwakke vervoeging) of fonetische (b.v. klemtoon) eigenschappen, in combinatie met een betekenisverschil. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie Meerwoordslemma.
CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*

Het lemma van meerwoordsuitdrukkingen, zoals 'uitademen' bij meerledige woordvormen als '(ik) adem uit'. Bij continue meerwoordsuitdrukkigen, namelijk meerledige ingeburgerde vreemdtalige expressies, meerledige eigennamen en titels, wordt een 'dummy' lemmavorm gepostuleerd die gelijk is aan de expressie, waarbij de delen verbonden zijn door underscores, als volgt:
pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\

Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J
CGN_LEXICON.Morfologie Meerwoordslemma

Hiërarchische morfologische segmentatie van het meerwoordslemma. Deze representatie betreft het meerwoordslemma, en omvat dus slechts derivationele en compositionele morfologie, en geen karakterisering van de inflectionele kenmerken van de woordvorm. De morfologische segmentatie is alleen relevant voor scheidbaar samengestelde werkwoorden. De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische representatie van het meerwoordslemma herhaald wordt. De verschillende niveaus van segmentatie, van het gehele meerwoordslemma tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in combinatie met een punt voor het andere lid).
Overzicht van de woordsoortcodes:
- N = substantief
- A = adjectief
- Q = telwoord
- V = werkwoord
- D = lidwoord
- O = voornaamwoord
- B = bijwoord
- P = voorzetsel
- C = voegwoord
- I = tussenwerpsel
- X = restcategorie
- . = affix
- x = deel van discontinu affix
De rol van het affix in de afleiding of samenstelling wordt weergegeven door een verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van de morfemen die dienen als input voor het morfologisch proces, en de woordsoort vóór de streep duidt op de woordsoort van de output van het morfologisch proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat '[V|.A]' bij 'voorverwarmen' voor het affigeringsproces waarbij een adjectief d.m.v. een voorvoegsel 'ver-' tot een werkwoord kan worden omgevormd:

voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]
Voorbeelden van morfologische segmentatie:

dichtmaken:

((dicht)[A],(maak)[V])[V]

navertellen:

((na)[P],((ver)[V|.V],(tel)[V])[V])[V]

achteruitdeinzen:

(((achter)[B],(uit)[B])[B],(deins)[V])[V]
CGN_LEXICON.Definitie Meerwoordslemma

Voor alle meerwoordslemmata die meer dan eens met dezelfde woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken (zoals morfosyntactische eigenschappen of klemtoon) in combinatie met een betekenisverschil, is een bondige definitie opgenomen ter onderscheiding van de lemmata. Dit veld is alleen relevant voor scheidbaar samengestelde werkwoorden. Gevallen van dergelijke ambiguïteit zullen slechts sporadisch in dit lexicon optreden. Bijvoorbeeld:
zweren af\WW(pv,tgw,mv)\501131\afzweren\((af)[P],(zweer)[V])[V]\door een zwering verliezen\J\N\
zweren af\WW(pv,tgw,mv)\501132\afzweren\((af)[P],(zweer)[V])[V]\onder ede afwijzen\J\N\
CGN_MLEXICON.Optioneel lid ::= ( "J" | "N" )

Als de Woordvorm optioneel deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'J'. Als de Woordvorm verplicht deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'N'. Zodoende krijgt 'ademt' als lid van 'inademen' en 'uitademen' de waarde 'J', terwijl 'apen' als lid van 'na-apen' de waarde 'N' krijgt. )
CGN_MLEXICON.Continu meerwoord ::= ( "J" | "N" )

Als de meerwoordsuitdrukking niet onderbroken kan worden in de zin, zoals bij 'Tien Voor Taal' of 'per se', krijgt de meerwoordsuitdrukking als geheel hier de waarde 'J', anders 'N', zoals voor scheidbaar samengestelde werkwoordsvormen. Uiteraard is deze waarde niet absoluut op te vatten in een corpus van gesproken taal, waar onderbreking door gevocaliseerde pauzes of correcties altijd mogelijk is.

¹ Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

² Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

³ Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. Elektronische versie beschikbaar als deel van Eindhoven Corpus.

⁴ Geerts, G. & T. den Boon (1999). Van Dale Groot Woordenboek der Nederlandse Taal. Utrecht/Antwerpen: Van Dale Lexicografie.

Aantal unieke meerwoordsuitdrukkingen	23.584
Aantal unieke meerwoordslemmata	18.593
Totaal aantal meerwoordsingangen	55.021

"&" +	"a" +	"grave"	+ ";"
	"c"	"acute" (= aigu)
	"e"	"circ" (= circonflexe)
	"i"	"uml" (= trema)
	"n"	"cedil" (= cedille)
	"o"	"tilde"
	"u"	"ring"
	"A"
	"C"
	"E"
	"I"
	"N"
	"O"
	"U"
b.v.	'à la carte' voor 'à la carte'
	en
	'Gustaf Åkermans' voor 'Gustaf Åkermans'