Het CGN-lexicon (Versie 2.0)

	7 april 2005

	Richard Piepenbrock
	Mila Groot
	Raffaela Vlot
	Maarten Jansonius

Algemene informatie

Het CGN-lexicon, zoals dat geleverd wordt als onderdeel van Versie 2.0 van het CGN-corpus, bevat vrijwel alle types (unieke woordvormen) uit het corpus. Het lexicon vermeldt alleen woorden die in het corpus voorkomen en sluit die types uit, waarvoor uitgebreide lexicale informatie irrelevant is. Dat laatste geldt voor versprekingen, in de spraak afgebroken woorden, niet-ingeburgerde vreemdtalige woorden, leestekens en onverstaanbare uitingen (er wordt een uitzondering gemaakt voor een aantal gevallen waarin dergelijke types deel uitmaken van een lexicologisch gekoppelde meerwoordsuitdrukking).

Dit lexicon bevat uitsluitend aaneengeschreven woordvormen; meerwoordsuitdrukkingen met spaties worden geleverd in een apart CGN-meerwoordslexicon met als filenaam cgnmlex_2.0.txt. Wel zijn in dit lexicon alle losse delen van deze meerwoordsuitdrukkingen opgenomen.

Het CGN-lexicon telt 15 kolommen, waarvan de eerste 4 (Id-Nummer Woordvorm, Orthografie Woordvorm, Woordsoort en Lemma) altijd gevuld zijn. De kolom Uitspraak CELEX bevat canonieke uitspraakrepresentaties voor alle verstaanbare woordvormen, terwijl de kolom Gebruik slechts codes bevat voor een regionale of stijlvariant. De kolommen Syntax, Uitspraak (3 extra subkolommen), Morfologie en Definitie zijn voorzien van codes voor zover deze voorhanden zijn in de bronlexica CELEX (Centrum voor Lexicale Informatie) ¹ en RBN (Referentiebestand Nederlands) ², of gegenereerd op basis van de uitspraken in CELEX en FONILEX (Fonetisch Lexicon Vlaams) ³.

Formaat en inhoud van het CGN-lexicon

Het lexicon wordt geleverd in twee fileformaten:

Een standaard tekstfile (platte ASCII) met als naam cgnlex_2.0.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
Een XML-file met als naam cgnlex_2.0.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) lex_2.0.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.

De lexiconfiles zijn geordend op Orthografie Woordvorm, Woordsoort en vervolgens op Lemma.

Aantal woordvormingangen (type-woordsoortparen) 180.487

Totaal aantal ingangen, inclusief syntaxpatronen 228.011

Aantal velden 15

Inhoud van de lexiconvelden

CGN_LEXICON.Id-Nummer Woordvorm ::= [0-9]+

Uniek volgnummer (Id = 'identificatie') voor elk woordvorm-tagpaar. Het is niet uniek per regel, omdat voor elke type-tagcombinatie meer dan één syntactisch complementatiepatroon voor kan komen. Orthografisch identieke woordvormen kunnen sowieso twee of meer keren vóórkomen indien zij behoren tot verschillende lemmata, of binnen één lemma indien zij over onderscheiden morfosyntactische codes kunnen beschikken, zoals 'vatten' als infinitiefvorm, tegenwoordige tijd meervoud en verleden tijd meervoud van het werkwoord 'vatten'.

CGN_LEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

Orthografische representatie van de woordvorm, oftewel het flexieparadigma behorend bij het lemma, voor zover die flexies voorkomen in het CGN-corpus. Diakritische tekens worden weergegeven in SGML-formaat, in de volgende standaardsequentie:

"&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

In concreto:

"&" + "a" + "grave" + ";"

"c" "acute" (= aigu)

"e" "circ" (= circonflexe)

"i" "uml" (= trema)

"n" "cedil" (= cedille)

"o" "tilde"

"u" "ring" (alleen in de namen 'Åkermans' en 'Ålesund')

"A"

"C"

"E"

"I"

"N"

"O"

"U"

b.v. 'inconveniëren' voor 'inconveniëren'

en

'Française' voor 'Française'

Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&' (ampersand).

CGN_LEXICON.Woordsoort ::=

"ADJ(" waarde ("," waarde)* ")" |

"BW(" ("dial"|"") ")" |

"LID(" waarde ("," waarde)* ") |

"N(" waarde ("," waarde)* ")" |

"SPEC(afgebr)" |

"SPEC(deeleigen)" |

"SPEC(meta)" |

"SPEC(onverst)" |

"SPEC(vreemd)" |

"TSW(" ("dial"|"") ")" |

"TW(" waarde ("," waarde)* ")" |

"VG(" waarde ")" |

"VNW(" waarde ("," waarde)* ")" |

"VZ(" waarde ("," waarde)* ")" |

"WW(" waarde ("," waarde)* ")"

Waarden voor de open woordklassen volgens het document Part of Speech Tagging en Lemmatisering (Van Eynde 2003):

ADJ

adjectief

BW

bijwoord

LID

lidwoord

N

substantief

SPEC(afgebr)

code vrijwel alleen in lexicon gebruikt voor delen van meerledige samentrekkingen ('in- en uitvoer'); in het corpus ook gebruikt voor elk in spraak afgebroken woord

SPEC(deeleigen)

code voor deel van een meerledige eigennaam

SPEC(meta)

code voor woord in zelfnoemfunctie

SPEC(onverst)

code voor onverstaanbare uiting

SPEC(vreemd)

code voor uiting in vreemde taal of niet-ingeburgerd leenwoord

TSW

tussenwerpsel

TW

telwoord

VG

voegwoord

VNW

voornaamwoord

VZ

voorzetsel

WW

werkwoord
CGN_LEXICON.Lemma ::= ([0-9][A-Z][a-z][&'-;_])+

Orthografische representatie van het lemma, d.w.z. het trefwoord dat dient ter karakterisering van het complete flexieparadigma. Diakritische tekens als bij woordvorm. Bij woordvormen met woordsoort 'SPEC' wordt standaard een underscore in plaats van een lemmawaarde toegekend.
CGN_LEXICON.Id-Nummer Lemma ::= [0-9]+

Volgnummer (Id = 'identificatie') dat aangeeft welke woordvormen behoren tot één flexieparadigma. Het vóórkomen van orthografisch identieke lemmata met verschillende Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische eigenschappen, zoals verschillend genus bij 'het blik' en 'de blik', verschillende woordsoort bij 'het leven' en 'wij leven' en verschillende derivationele morfologie bij 'koker' ('cilinder' vs. 'iemand die kookt'), of onderscheiden uitspraak, zoals 'band' ('stof': /bAnt/ vs. 'muziekgroep': /bEnt/). Deze onderscheiden vormkenmerken dienen dan wel samen te gaan met een betekenisverschil; zodoende worden 'de matras' en 'het matras' gewoon behandeld als één lemma. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie.
CGN_LEXICON.Syntax

De mogelijke syntactische complementatiepatronen per woordvorm. Per woordvorm zijn meerdere patronen mogelijk, die dan in afzonderlijke records onder elkaar worden weergegeven met eenzelfde woordvorm-woordsoortcombinatie. De patronen zijn afgeleid uit de dwarsdoorsnede van CELEX en RBN. Patronen die na conversie alleen in CELEX of in RBN voorkwamen, zijn dus niet opgenomen. De gebruikte waarden zijn conform het document CGN Syntactische Annotatie (Hoekstra et al. 2004).
CGN_LEXICON.Gebruik ::= ("B" | "INF" | "*d" | "*u" | "*v" | "*x" | "*z")("," Gebruik)* | NULL
Gebruik van woordvorm:
B = belgicisme
INF = informeel
*d = dialect
*u = al dan niet opzettelijke verspreking
*v = niet-ingeburgerd vreemdtalig woord
*x = slecht verstaanbaar woord
*z = zwaar dialectisch uitgesproken woord, getranscribeerd in genormaliseerde spelling
- 'B' is een code oorspronkelijk afkomstig uit het RBN-lexicon voor woorden die beschouwd kunnen worden als 'karakteristiek voor de Vlaamse woordenschat'. Dat kan zowel slaan op woorden die alleen in Vlaanderen gangbaar zijn, zoals 'frigo' en 'jobstudent', als op woorden die gewoon Algemeen Nederlands zijn, maar in Vlaanderen in een andere dan voor het gehele taalgebied gangbare betekenis worden gebruikt, zoals 'aardig' (vreemd) en 'afschrijven' (spieken).
- 'INF' wordt gebruikt voor woorden die vanuit de papieren bronnen (zoals Van Dale), volgens de CGN-protocollen of het oordeel van medewerkers als behorend tot de algemene woordenschat worden beschouwd, maar toch gezien zouden kunnen worden als informeel, idiosyncratisch of regionaal gemarkeerd. In de huidige versie worden de diminutiefvormen eindigend op '-ie(s)' (Noord-Nederlands) en '-ke(n)(s)' (Vlaams) niet aangemerkt als dialectisch, maar houden ze wel de code 'INF':
  bakkie\N(soort,ev,dim,onz,stan)\bakkie\INF\
  beessie\N(soort,ev,dim,onz,stan)\beest\INF\
- '*d' wordt gebruikt voor woorden die door de transcribenten en de lexicologen zeker als dialect worden aangemerkt. Voorbeeld:
  benne\WW(pv,tgw,mv)\zijn\*d\
CGN_LEXICON.Uitspraak CGN Nederlands Normaal ::= [+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

Canonieke (standaard) Nederlandse uitspraakrepresentatie gegenereerd met de CGN-grafeem-foneemomzetter ⁴, getraind op de CELEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
CGN_LEXICON.Uitspraak CGN Vlaams Normaal ::= [*+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

Canonieke (standaard) Vlaamse uitspraakrepresentatie gegenereerd met de CGN-grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
CGN_LEXICON.Uitspraak CGN Vlaams Formeel ::= [+2:@AEGINOSYZ`abdefghijklmnoprstuvwxyz]*

Zeer formele Vlaamse uitspraakrepresentatie gegenereerd met de CGN grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
CGN_LEXICON.Uitspraak CELEX ::= ['+-2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

Canonieke uitspraakrepresentatie van de woordvorm inclusief syllabegrenzen en hoofdklemtoon, zoals gebruikelijk in het CELEX-bronlexicon. Het overgrote deel van deze uitspraaktranscripties is handmatig geverifieerd, in tegenstelling tot die in de andere uitspraakkolommen. De validatiestatus van de uitspraakrepresentaties wordt weergegeven in de navolgende kolom. De CELEX-representatie geeft alleen die assimilaties weer, welke leiden tot veranderingen op foneemniveau, zoals Auslautverhärtung ("paard": /'part/) en regressieve assimilatie en degeminatie ("inboedel": /'Im-bu-d@l/; "bloeddruk": /'blu-drYk/) en is daarom te kenschetsen als fonemisch, op een niveau tussen fonologisch en fonetisch in.
De representatie is in de CGN-foneemset, inclusief de palatale nasaal /J/.
CGN_LEXICON.Status Uitspraak CELEX ::= ( "O" | "V" )

Code die de status aangeeft van de uitspraakrepresentatie in de Uitspraak CELEX-kolom:
- O = ongevalideerde CELEX-uitspraakrepresentatie, gegenereerd met de regelgebaseerde Nijmeegse grafeem-foneemconvertor GFC ⁵.
- V = handmatig gevalideerde CELEX-uitspraakrepresentatie
CGN_LEXICON.Morfologie

Hiërarchische morfologische segmentatie van het lemma. Deze representatie betreft het lemma, en omvat dus slechts derivationele en compositionele morfologie, en geen karakterisering van de inflectionele kenmerken van de woordvorm. De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische representatie van het lemma herhaald wordt. De verschillende niveaus van segmentatie, van het gehele lemma tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in combinatie met een punt voor het andere lid).
Overzicht van de woordsoortcodes:
- N = substantief
- A = adjectief
- Q = telwoord
- V = werkwoord
- D = lidwoord
- O = voornaamwoord
- B = bijwoord
- P = voorzetsel
- C = voegwoord
- I = tussenwerpsel
- X = restcategorie
- . = affix
- x = deel van discontinu affix
De rol van het affix in de afleiding of samenstelling wordt weergegeven door een verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van de morfemen die dienen als input voor het morfologisch proces, en de woordsoort vóór de streep duidt op de woordsoort van de output van het morfologisch proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat '[N|A.]' bij 'arrogantie' voor het affigeringsproces waarbij een adjectief d.m.v. een achtervoegsel '-ie' tot een substantief kan worden omgevormd:

((arrogant)[A],(ie)[N|A.])[N]
Voorbeelden van morfologische segmentatie:

boek:

(boek)[N] (nl. monomorfematisch)

telraam:

((tel)[V],(raam)[N])[N]

hondenhok:

((hond)[N],(en)[N|N.N],(hok)[N])[N]

onmondig:

((on)[A|.A],((mond)[N],(ig)[A|N.])[A])[A]

gehemelte:

((ge)[N|.Nx],(hemel)[N],(te)[N|xN.])[N]

arbeidsovereenkomst:

((arbeid)[N],(s)[N|N.N],(((overeen)[B],(kom)[V])[V],(st)[N|V.])[N])[N]
CGN_LEXICON.Corpus Status ::= ( "C" | "I" | "O" | "V" )

Code die de orthografische status aangeeft van het in het corpus aangetroffen type:
- C = correcte spelling van corpustype
- I = incorrecte spelling van corpustype
- O = ongevalideerde spelling van corpustype
- V = gevalideerde spelling van corpustype
Als de spelling van de woordvorm in het corpus in orde bevonden is, krijgt de lexiconingang de code V (gevalideerd). Bij een incorrecte spelling wordt de code I (incorrect) toegekend. Indien validatie van de woordvorm niet meer mogelijk was, wordt geen uitspraak gedaan over de correctheid en krijgt de woordvorm het neutrale label O (ongevalideerd). De code C (correct) wordt gebruikt voor alternatieve, correcte lemmatiseringen van de gevallen die als I, O of V zijn aangemerkt, zoals:

396259\asielaanvragen\N(soort,mv,basis)\asielaanvrage\133817\C\
392625\asielaanvragen\N(soort,mv,basis)\asielaanvraag\131545\V\
CGN_LEXICON.Definitie

Voor alle lemmata die meer dan eens met dezelfde woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken (zoals de morfosyntactische eigenschappen genus of derivationele morfologie), in combinatie met een betekenisverschil, is een bondige definitie opgenomen ter onderscheiding van de lemmata, bijvoorbeeld:
73704\doorlopen\WW(inf,vrij,zonder)\doorlopen\23802\dor-'lo-p@\V\bewegen door, tot het einde volgen\
73705\doorlopen\WW(inf,vrij,zonder)\doorlopen\501446\'dor-lo-p@\V\verder lopen, vermengen van kleuren\

¹ Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

² Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

³ FONILEX. Centre for Computational Linguistics, Katholieke Universiteit Leuven & Centrum voor Nederlandse Taal en Spraak, Universiteit Antwerpen & Vakgroep voor Electronica en Informatiesystemen, Universiteit Gent

⁴ CGN-grafeem-foneemomzetter. Zie:
Véronique Hoste, Steven Gillis en Walter Daelemans (Universiteit Antwerpen), A Rule Induction Approach to Modeling Regional Pronunciation Variation. In: Proceedings of COLING 2000, Saarbrücken, Germany. San Francisco: Morgan Kaufman Publishers, 2000, pp. 327-333.
en:
Véronique Hoste, Steven Gillis en Walter Daelemans, Machine Learning for Modeling Dutch Pronunciation Variation. Proceedings of the tenth CLIN meeting, Utrecht, The Netherlands.

⁵ Grapheme to Phoneme convertor (based on Fonpars rules), Radboud University Nijmegen, Department Language and Speech (version March 2005).

Aantal woordvormingangen (type-woordsoortparen)	180.487
Totaal aantal ingangen, inclusief syntaxpatronen	228.011
Aantal velden	15

"&" +	"a" +	"grave"	+ ";"
	"c"	"acute" (= aigu)
	"e"	"circ" (= circonflexe)
	"i"	"uml" (= trema)
	"n"	"cedil" (= cedille)
	"o"	"tilde"
	"u"	"ring" (alleen in de namen 'Åkermans' en 'Ålesund')
	"A"
	"C"
	"E"
	"I"
	"N"
	"O"
	"U"
b.v.	'inconveniëren' voor 'inconveniëren'
	en
	'Française' voor 'Française'