Het CGN-meerwoordslexicon (Versie 2.0)
|
7 april 2005 |
|
|
|
Richard Piepenbrock |
|
Mila Groot |
|
Raffaela Vlot |
|
Maarten Jansonius |
Algemene informatie
Het CGN-meerwoordslexicon, zoals dat geleverd wordt als onderdeel van
Versie 2.0 van het CGN-corpus, is gebaseerd op een
inventarisatie van alle meerwoordsuitdrukkingen die voorkomen in een
reeks bronbestanden (CELEX 1, RBN 2, Woordenlijst Nederlandse Taal (Groene Boekje,
1995), Corpus Uit den Boogaart 3
en het Van Dale Groot Woordenboek der Nederlandse Taal 4), aangevuld met alle in het CGN-corpus
aangetroffen meerledige expressies. Het lexicon vermeldt alleen die
meerwoordsuitdrukkingen die in het corpus voorkomen.
Formaat en inhoud van het CGN-meerwoordslexicon
Het lexicon wordt geleverd in twee fileformaten:
- Een standaard tekstfile (platte ASCII) met als naam cgnmlex_2.0.txt.
Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische
tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met
elke eenvoudige teksteditor worden gelezen, of op grond van de unieke
veldscheidingstekens worden geladen in databasesystemen als Access,
ORACLE of dBase.
- Een XML-file met als naam cgnmlex_2.0.lex. Deze file
kan worden ingelezen in een willekeurige XML-browser of -editor, en
daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD
(Document Type Definition) mlex_2.0.dtd is meegeleverd,
zodat een indruk kan worden gegeven van de structuur van de XML-file.
Het CGN-meerwoordslexicon telt 11 kolommen. De beide lexiconfiles zijn
geordend op Orthografie Meerwoord
en vervolgens op Woordsoort
Meerwoord, Id-Nummer
Meerwoordslemma en Volgnummer
van de leden binnen
de meerwoordsuitdrukking.
Aantal unieke meerwoordsuitdrukkingen |
23.584 |
Aantal unieke meerwoordslemmata |
18.593 |
Totaal aantal meerwoordsingangen |
55.021 |
Inhoud van de lexiconvelden
- CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][
&'*-;])+
Orthografische representatie van de meerwoordsuitdrukking. Het
flexieparadigma behorend bij het meerwoordslemma is hier opgenomen,
voor zover die flexies voorkomen in het CGN-corpus. Diakritische tekens
worden weergegeven in SGML-formaat, in de volgende standaardsequentie:
"&" + hoofdletterteken/kleine letterteken +
accentrepresentatie + ";"
In concreto:
"&" + |
"a" + |
"grave" |
+ ";" |
|
"c" |
"acute" (= aigu) |
|
|
"e" |
"circ" (= circonflexe) |
|
|
"i" |
"uml" (= trema) |
|
|
"n" |
"cedil" (= cedille) |
|
|
"o" |
"tilde" |
|
|
"u" |
"ring" |
|
|
"A" |
|
|
|
"C" |
|
|
|
"E" |
|
|
|
"I" |
|
|
|
"N" |
|
|
|
"O" |
|
|
|
"U" |
|
|
b.v. |
'à la carte' voor 'à la carte' |
|
|
|
en |
|
|
|
'Gustaf Åkermans' voor 'Gustaf
Åkermans' |
|
|
Daarnaast wordt het SGML-symbool '&' gebruikt ter
representatie van het leesteken '&'.
- CGN_MLEXICON.Volgnummer ::= [1-9]+
Dit nummer geeft de positie van de woordvorm aan in de zin ten opzichte
van de andere leden van de meerwoordsuitdrukking.
- CGN_MLEXICON.Orthografie Woordvorm ::=
([0-9][A-Z][a-z][&'-;])+
Orthografische representatie van de woordvorm, d.w.z. de afzonderlijke
leden van de meerwoordsuitdrukking. Diakritische tekens als bij
woordvorm.
- CGN_MLEXICON.Woordsoort Woordvorm ::=
- "ADJ(" waarde ("," waarde)* ")" |
- "BW("")" |
- "LID(" waarde ("," waarde)* ") |
- "N(" waarde ("," waarde)* ")" |
- "SPEC(deeleigen)" |
- "SPEC(meta)" |
- "SPEC(onverst)" |
- "SPEC(vreemd)" |
- "TSW()" |
- "TW(" waarde ("," waarde)* ")" |
- "VG(" waarde ")" |
- "VNW(" waarde ("," waarde)* ")" |
- "VZ(" waarde ")" |
- "WW(" waarde ("," waarde)* ")"
De woordsoort van de woordvorm, d.w.z. van de afzonderlijke leden van
de meerwoordsuitdrukking. Waarden voor de open woordklassen volgens het
document Part of Speech Tagging en Lemmatisering (Van Eynde
2003):
- ADJ
- adjectief
- BW
- bijwoord
- LID
- lidwoord
- N
- substantief
- SPEC(deeleigen)
- code voor deel van een meerledige eigennaam
- SPEC(meta)
- code voor woord in zelfnoemfunctie
- SPEC(onverst)
- code voor onverstaanbare uiting
- SPEC(vreemd)
- code voor uiting in vreemde taal of niet ingeburgerd
leenwoord
- TSW
- tussenwerpsel
- TW
- telwoord
- VG
- voegwoord
- VNW
- voornaamwoord
- VZ
- voorzetsel
- WW
- werkwoord
- CGN_MLEXICON.Woordsoort Meerwoord
De woordsoort van de meerwoordsuitdrukking, indien men de gehele
uitdrukking grammaticaal als één woord wenst te
beschouwen. Waarden als bij de woordsoort van de woordvorm, met de
volgende aanvulling:
- COMB(eigen)
- code voor meerledige eigennaam of meerledige titel waarvoor
geen nadere attributen als genus en getal zijn vastgesteld
- CGN_LEXICON.Id-Nummer Meerwoordslemma ::= [0-9]+
Volgnummer (Id = 'identificatie') dat aangeeft welke
meerwoordsuitdrukkingen kunnen worden beschouwd als behorend tot
één flexieparadigma. Het onderscheid is alleen relevant
voor scheidbaar samengestelde werkwoorden. Het vóórkomen
van orthografisch identieke (meerwoords)lemmata met verschillende
Id-Nummers impliceert dat het gaat om lemmata met onderscheiden
morfosyntactische (b.v. sterke of zwakke vervoeging) of fonetische
(b.v. klemtoon) eigenschappen, in combinatie met een betekenisverschil.
Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie
Meerwoordslemma.
- CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*
Het lemma van meerwoordsuitdrukkingen, zoals 'uitademen' bij meerledige
woordvormen als '(ik) adem uit'. Bij continue meerwoordsuitdrukkigen,
namelijk meerledige ingeburgerde vreemdtalige expressies, meerledige
eigennamen en titels, wordt een 'dummy' lemmavorm gepostuleerd die
gelijk is aan de expressie, waarbij de delen verbonden zijn door
underscores, als volgt:
pro
forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
Kim
Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
Kim
Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J
- CGN_LEXICON.Morfologie Meerwoordslemma
Hiërarchische morfologische segmentatie van het meerwoordslemma.
Deze representatie betreft het meerwoordslemma, en omvat dus slechts
derivationele en compositionele morfologie, en geen karakterisering van
de inflectionele kenmerken van de woordvorm. De morfologische
segmentatie is alleen relevant voor scheidbaar samengestelde
werkwoorden. De representatie is in zoverre redundant, dat voor elke
woordvorm de morfologische representatie van het meerwoordslemma
herhaald wordt. De verschillende niveaus van segmentatie, van het
gehele meerwoordslemma tot op diens atomaire (ondeelbare) morfemen,
worden weergegeven door elkaar omvattende paren van ronde haken,
waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen
rechte haken. Gebonden morfemen (affixen) worden aangegeven door
punten, of de letter 'x' in het geval van een discontinu affix (in
combinatie met een punt voor het andere lid).
Overzicht van de woordsoortcodes:
- N = substantief
- A = adjectief
- Q = telwoord
- V = werkwoord
- D = lidwoord
- O = voornaamwoord
- B = bijwoord
- P = voorzetsel
- C = voegwoord
- I = tussenwerpsel
- X = restcategorie
- . = affix
- x = deel van discontinu affix
De rol van het affix in de afleiding of samenstelling wordt
weergegeven door een verticale streep, waarbij de woordsoort achter de
streep duidt op de woordsoorten van de morfemen die dienen als input
voor het morfologisch proces, en de woordsoort vóór de
streep duidt op de woordsoort van de output van het morfologisch
proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe
morfeem. Zo staat '[V|.A]' bij 'voorverwarmen' voor het
affigeringsproces waarbij een adjectief d.m.v. een voorvoegsel 'ver-'
tot een werkwoord kan worden omgevormd:
voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]
Voorbeelden van morfologische segmentatie:
- dichtmaken:
- ((dicht)[A],(maak)[V])[V]
- navertellen:
- ((na)[P],((ver)[V|.V],(tel)[V])[V])[V]
- achteruitdeinzen:
- (((achter)[B],(uit)[B])[B],(deins)[V])[V]
- CGN_LEXICON.Definitie Meerwoordslemma
Voor alle meerwoordslemmata die meer dan eens met dezelfde
woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken
(zoals morfosyntactische eigenschappen of klemtoon) in combinatie met
een betekenisverschil, is een bondige definitie opgenomen ter
onderscheiding van de lemmata. Dit veld is alleen relevant voor
scheidbaar samengestelde werkwoorden. Gevallen van dergelijke
ambiguïteit zullen slechts sporadisch in dit lexicon optreden.
Bijvoorbeeld:
zweren
af\WW(pv,tgw,mv)\501131\afzweren\((af)[P],(zweer)[V])[V]\door een
zwering verliezen\J\N\
zweren af\WW(pv,tgw,mv)\501132\afzweren\((af)[P],(zweer)[V])[V]\onder
ede afwijzen\J\N\
- CGN_MLEXICON.Optioneel lid ::= ( "J" | "N" )
Als de Woordvorm optioneel deel uitmaakt van een meerwoordsuitdrukking,
dan bevat dit veld de waarde 'J'. Als de Woordvorm verplicht deel
uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde
'N'. Zodoende krijgt 'ademt' als lid van 'inademen' en 'uitademen' de
waarde 'J', terwijl 'apen' als lid van 'na-apen' de waarde 'N' krijgt. )
- CGN_MLEXICON.Continu meerwoord ::= ( "J" | "N" )
Als de meerwoordsuitdrukking niet onderbroken kan worden in de zin,
zoals bij 'Tien Voor Taal' of 'per se', krijgt de meerwoordsuitdrukking
als geheel hier de waarde 'J', anders 'N', zoals voor scheidbaar
samengestelde werkwoordsvormen. Uiteraard is deze waarde niet absoluut
op te vatten in een corpus van gesproken taal, waar onderbreking door
gevocaliseerde pauzes of correcties altijd mogelijk is.
1 Centrum voor Lexicale
Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van
Nijmegen & Max Planck Instituut voor Psycholinguïstiek,
Nijmegen.
2 Referentiebestand Nederlands.
Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor
Nederlandse Lexicologie, Leiden & Departement Linguïstiek,
Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit
Utrecht.
3 Boogaart, P.C. Uit den
(1975). Woordfrequenties: in Geschreven en Gesproken Nederlands.
Utrecht: Oosthoek, Scheltema & Holkema. Elektronische versie
beschikbaar als deel van Eindhoven Corpus.
4 Geerts, G. & T. den Boon
(1999). Van Dale Groot Woordenboek der Nederlandse Taal.
Utrecht/Antwerpen: Van Dale Lexicografie.