Het CGN-lexicon (Versie 2.0)
|
7 april 2005 |
|
|
|
Richard Piepenbrock |
|
Mila Groot |
|
Raffaela Vlot |
|
Maarten Jansonius |
Algemene informatie
Het CGN-lexicon, zoals dat geleverd wordt als onderdeel van Versie
2.0 van het CGN-corpus, bevat vrijwel alle
types (unieke woordvormen) uit het corpus. Het lexicon vermeldt alleen
woorden die in het corpus voorkomen en sluit die types uit, waarvoor
uitgebreide lexicale informatie irrelevant is. Dat laatste geldt voor
versprekingen, in de spraak afgebroken woorden, niet-ingeburgerde
vreemdtalige woorden, leestekens en onverstaanbare uitingen (er wordt
een uitzondering gemaakt voor een aantal gevallen waarin dergelijke
types deel uitmaken van een lexicologisch gekoppelde
meerwoordsuitdrukking).
Dit lexicon bevat uitsluitend aaneengeschreven woordvormen;
meerwoordsuitdrukkingen met spaties worden geleverd in een apart
CGN-meerwoordslexicon met als filenaam cgnmlex_2.0.txt. Wel
zijn in dit lexicon alle losse delen van deze meerwoordsuitdrukkingen
opgenomen.
Het CGN-lexicon telt 15 kolommen, waarvan de eerste 4 (Id-Nummer
Woordvorm, Orthografie Woordvorm, Woordsoort en Lemma)
altijd gevuld zijn. De kolom Uitspraak CELEX bevat canonieke
uitspraakrepresentaties voor alle verstaanbare woordvormen, terwijl de
kolom Gebruik slechts codes bevat voor een regionale of
stijlvariant.
De kolommen Syntax, Uitspraak (3 extra subkolommen), Morfologie
en Definitie zijn voorzien van codes voor zover deze voorhanden
zijn in de bronlexica CELEX (Centrum voor Lexicale Informatie) 1 en RBN (Referentiebestand Nederlands) 2, of gegenereerd op basis van de uitspraken in
CELEX en FONILEX (Fonetisch Lexicon Vlaams) 3.
Formaat en inhoud van het CGN-lexicon
Het lexicon wordt geleverd in twee fileformaten:
- Een standaard tekstfile (platte ASCII) met als naam cgnlex_2.0.txt.
Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische
tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met
elke eenvoudige teksteditor worden gelezen, of op grond van de unieke
veldscheidingstekens worden geladen in databasesystemen als Access,
ORACLE of dBase.
- Een XML-file met als naam cgnlex_2.0.lex. Deze file
kan worden ingelezen in een willekeurige XML-browser of -editor, en
daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD
(Document Type Definition) lex_2.0.dtd is meegeleverd,
zodat een indruk kan worden gegeven van de structuur van de XML-file.
De lexiconfiles zijn geordend op Orthografie
Woordvorm, Woordsoort
en vervolgens op Lemma.
Aantal woordvormingangen
(type-woordsoortparen) |
180.487 |
Totaal aantal ingangen, inclusief
syntaxpatronen |
228.011 |
Aantal velden |
15 |
Inhoud van de lexiconvelden
- CGN_LEXICON.Id-Nummer Woordvorm ::= [0-9]+
Uniek volgnummer (Id = 'identificatie') voor elk
woordvorm-tagpaar. Het is niet uniek per regel, omdat voor elke
type-tagcombinatie meer dan één syntactisch
complementatiepatroon voor kan komen. Orthografisch identieke
woordvormen kunnen sowieso twee of meer keren vóórkomen
indien zij behoren tot verschillende lemmata, of binnen
één lemma indien zij over onderscheiden morfosyntactische
codes kunnen beschikken, zoals 'vatten' als infinitiefvorm,
tegenwoordige tijd meervoud en verleden tijd meervoud van het werkwoord
'vatten'.
- CGN_LEXICON.Orthografie Woordvorm ::=
([0-9][A-Z][a-z][&'-;])+
Orthografische representatie van de woordvorm, oftewel het
flexieparadigma behorend bij het lemma, voor zover die flexies
voorkomen in het CGN-corpus. Diakritische tekens worden weergegeven in
SGML-formaat, in de volgende standaardsequentie:
"&" + hoofdletterteken/kleine letterteken +
accentrepresentatie + ";"
In concreto:
"&" + |
"a" + |
"grave" |
+ ";" |
|
"c" |
"acute" (= aigu) |
|
|
"e" |
"circ" (= circonflexe) |
|
|
"i" |
"uml" (= trema) |
|
|
"n" |
"cedil" (= cedille) |
|
|
"o" |
"tilde" |
|
|
"u" |
"ring" (alleen in de namen 'Åkermans' en
'Ålesund') |
|
|
"A" |
|
|
|
"C" |
|
|
|
"E" |
|
|
|
"I" |
|
|
|
"N" |
|
|
|
"O" |
|
|
|
"U" |
|
|
b.v. |
'inconveniëren' voor 'inconveniëren' |
|
|
|
en |
|
|
|
'Française' voor 'Française' |
|
|
Daarnaast wordt het SGML-symbool '&' gebruikt ter
representatie van het leesteken '&' (ampersand).
- CGN_LEXICON.Woordsoort ::=
- "ADJ(" waarde ("," waarde)* ")" |
- "BW(" ("dial"|"") ")" |
- "LID(" waarde ("," waarde)* ") |
- "N(" waarde ("," waarde)* ")" |
- "SPEC(afgebr)" |
- "SPEC(deeleigen)" |
- "SPEC(meta)" |
- "SPEC(onverst)" |
- "SPEC(vreemd)" |
- "TSW(" ("dial"|"") ")" |
- "TW(" waarde ("," waarde)* ")" |
- "VG(" waarde ")" |
- "VNW(" waarde ("," waarde)* ")" |
- "VZ(" waarde ("," waarde)* ")" |
- "WW(" waarde ("," waarde)* ")"
Waarden voor de open woordklassen volgens het document Part of
Speech Tagging en Lemmatisering (Van Eynde 2003):
- ADJ
- adjectief
- BW
- bijwoord
- LID
- lidwoord
- N
- substantief
- SPEC(afgebr)
- code vrijwel alleen in lexicon gebruikt voor delen van
meerledige samentrekkingen ('in- en uitvoer'); in het corpus ook
gebruikt voor elk in spraak afgebroken woord
- SPEC(deeleigen)
- code voor deel van een meerledige eigennaam
- SPEC(meta)
- code voor woord in zelfnoemfunctie
- SPEC(onverst)
- code voor onverstaanbare uiting
- SPEC(vreemd)
- code voor uiting in vreemde taal of niet-ingeburgerd
leenwoord
- TSW
- tussenwerpsel
- TW
- telwoord
- VG
- voegwoord
- VNW
- voornaamwoord
- VZ
- voorzetsel
- WW
- werkwoord
- CGN_LEXICON.Lemma ::= ([0-9][A-Z][a-z][&'-;_])+
Orthografische representatie van het lemma, d.w.z. het trefwoord dat
dient ter karakterisering van het complete flexieparadigma.
Diakritische tekens als bij woordvorm. Bij woordvormen met woordsoort
'SPEC' wordt standaard een underscore in plaats van een lemmawaarde
toegekend.
- CGN_LEXICON.Id-Nummer Lemma ::= [0-9]+
Volgnummer (Id = 'identificatie') dat aangeeft welke woordvormen
behoren tot één flexieparadigma. Het
vóórkomen van orthografisch identieke lemmata met
verschillende Id-Nummers impliceert dat het gaat om lemmata met
onderscheiden morfosyntactische eigenschappen, zoals verschillend genus
bij 'het blik' en 'de blik', verschillende woordsoort bij 'het leven'
en 'wij leven' en verschillende derivationele morfologie bij 'koker'
('cilinder' vs. 'iemand die kookt'), of onderscheiden uitspraak, zoals
'band' ('stof': /bAnt/ vs. 'muziekgroep': /bEnt/). Deze onderscheiden
vormkenmerken dienen dan wel samen te gaan met een betekenisverschil;
zodoende worden 'de matras' en 'het matras' gewoon behandeld als
één lemma. Het betekenisonderscheid wordt bondig
aangeduid in het veld Definitie.
- CGN_LEXICON.Syntax
De mogelijke syntactische complementatiepatronen per woordvorm. Per
woordvorm zijn meerdere patronen mogelijk, die dan in afzonderlijke
records onder elkaar worden weergegeven met eenzelfde
woordvorm-woordsoortcombinatie. De patronen zijn afgeleid uit de
dwarsdoorsnede van CELEX en RBN. Patronen die na conversie alleen in
CELEX of in RBN voorkwamen, zijn dus niet opgenomen. De gebruikte
waarden zijn conform het document CGN Syntactische Annotatie
(Hoekstra et al. 2004).
- CGN_LEXICON.Gebruik ::= ("B" | "INF" | "*d" | "*u" | "*v" | "*x"
| "*z")("," Gebruik)* | NULL
Gebruik van woordvorm:
B = belgicisme
INF = informeel
*d = dialect
*u = al dan niet opzettelijke verspreking
*v = niet-ingeburgerd vreemdtalig woord
*x = slecht verstaanbaar woord
*z = zwaar dialectisch uitgesproken woord, getranscribeerd in
genormaliseerde spelling
- 'B' is een code oorspronkelijk afkomstig uit het RBN-lexicon
voor woorden die beschouwd kunnen worden als 'karakteristiek voor de
Vlaamse woordenschat'. Dat kan zowel slaan op woorden die alleen in
Vlaanderen gangbaar zijn, zoals 'frigo' en 'jobstudent', als op woorden
die gewoon Algemeen Nederlands zijn, maar in Vlaanderen in een andere
dan voor het gehele taalgebied gangbare betekenis worden gebruikt,
zoals 'aardig' (vreemd) en 'afschrijven' (spieken).
- 'INF' wordt gebruikt voor woorden die vanuit de papieren
bronnen (zoals Van Dale), volgens de CGN-protocollen of het oordeel van
medewerkers als behorend tot de algemene woordenschat worden beschouwd,
maar toch gezien zouden kunnen worden als informeel, idiosyncratisch of
regionaal gemarkeerd. In de huidige versie worden de diminutiefvormen
eindigend op '-ie(s)' (Noord-Nederlands) en '-ke(n)(s)' (Vlaams) niet
aangemerkt als dialectisch, maar houden ze wel de code 'INF':
bakkie\N(soort,ev,dim,onz,stan)\bakkie\INF\
beessie\N(soort,ev,dim,onz,stan)\beest\INF\
- '*d' wordt gebruikt voor woorden die door de transcribenten
en de lexicologen zeker als dialect worden aangemerkt. Voorbeeld:
benne\WW(pv,tgw,mv)\zijn\*d\
- CGN_LEXICON.Uitspraak CGN Nederlands Normaal ::=
[+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke (standaard) Nederlandse uitspraakrepresentatie gegenereerd
met de CGN-grafeem-foneemomzetter 4,
getraind op de CELEX-uitspraaktranscriptie. Deze representatie bevat
geen syllabegrenzen of klemtoonmarkering.
- CGN_LEXICON.Uitspraak CGN Vlaams Normaal ::=
[*+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke (standaard) Vlaamse uitspraakrepresentatie gegenereerd met de
CGN-grafeem-foneemomzetter, getraind op de
FONILEX-uitspraaktranscriptie. Deze representatie bevat geen
syllabegrenzen of klemtoonmarkering.
- CGN_LEXICON.Uitspraak CGN Vlaams Formeel ::=
[+2:@AEGINOSYZ`abdefghijklmnoprstuvwxyz]*
Zeer formele Vlaamse uitspraakrepresentatie gegenereerd met de CGN
grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie.
Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
- CGN_LEXICON.Uitspraak CELEX ::=
['+-2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke uitspraakrepresentatie van de woordvorm inclusief
syllabegrenzen en hoofdklemtoon, zoals gebruikelijk in het
CELEX-bronlexicon. Het overgrote deel van deze uitspraaktranscripties
is handmatig geverifieerd, in tegenstelling tot die in de andere
uitspraakkolommen. De validatiestatus van de uitspraakrepresentaties
wordt weergegeven in de navolgende kolom. De CELEX-representatie geeft
alleen die assimilaties weer, welke leiden tot veranderingen op
foneemniveau, zoals Auslautverhärtung ("paard": /'part/) en
regressieve assimilatie en degeminatie ("inboedel": /'Im-bu-d@l/;
"bloeddruk": /'blu-drYk/) en is daarom te kenschetsen als fonemisch, op
een niveau tussen fonologisch en fonetisch in.
De representatie is in de CGN-foneemset,
inclusief de
palatale nasaal /J/.
- CGN_LEXICON.Status Uitspraak CELEX ::= ( "O" | "V" )
Code die de status aangeeft van de uitspraakrepresentatie in de Uitspraak
CELEX-kolom:
- O = ongevalideerde CELEX-uitspraakrepresentatie, gegenereerd
met de regelgebaseerde Nijmeegse grafeem-foneemconvertor GFC 5.
- V = handmatig gevalideerde CELEX-uitspraakrepresentatie
- CGN_LEXICON.Morfologie
Hiërarchische morfologische segmentatie van het lemma. Deze
representatie betreft het lemma, en omvat dus slechts derivationele en
compositionele morfologie, en geen karakterisering van de inflectionele
kenmerken van de woordvorm. De representatie is in zoverre redundant,
dat voor elke woordvorm de morfologische representatie van het lemma
herhaald wordt. De verschillende niveaus van segmentatie, van het
gehele lemma tot op diens atomaire (ondeelbare) morfemen, worden
weergegeven door elkaar omvattende paren van ronde haken, waarbij elk
morfeem voorzien is van een woordsoortaanduiding tussen rechte haken.
Gebonden morfemen (affixen) worden aangegeven door punten, of de letter
'x' in het geval van een discontinu affix (in combinatie met een punt
voor het andere lid).
Overzicht van de woordsoortcodes:
- N = substantief
- A = adjectief
- Q = telwoord
- V = werkwoord
- D = lidwoord
- O = voornaamwoord
- B = bijwoord
- P = voorzetsel
- C = voegwoord
- I = tussenwerpsel
- X = restcategorie
- . = affix
- x = deel van discontinu affix
De rol van het affix in de afleiding of samenstelling wordt
weergegeven door een verticale streep, waarbij de woordsoort achter de
streep duidt op de woordsoorten van de morfemen die dienen als input
voor het morfologisch proces, en de woordsoort vóór de
streep duidt op de woordsoort van de output van het morfologisch
proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe
morfeem. Zo staat '[N|A.]' bij 'arrogantie' voor het affigeringsproces
waarbij een adjectief d.m.v. een achtervoegsel '-ie' tot een
substantief kan worden omgevormd:
((arrogant)[A],(ie)[N|A.])[N]
Voorbeelden van morfologische segmentatie:
- boek:
- (boek)[N] (nl. monomorfematisch)
- telraam:
- ((tel)[V],(raam)[N])[N]
- hondenhok:
- ((hond)[N],(en)[N|N.N],(hok)[N])[N]
- onmondig:
- ((on)[A|.A],((mond)[N],(ig)[A|N.])[A])[A]
- gehemelte:
- ((ge)[N|.Nx],(hemel)[N],(te)[N|xN.])[N]
- arbeidsovereenkomst:
- ((arbeid)[N],(s)[N|N.N],(((overeen)[B],(kom)[V])[V],(st)[N|V.])[N])[N]
- CGN_LEXICON.Corpus Status ::= ( "C" | "I" | "O" | "V" )
Code die de orthografische status aangeeft van het in het corpus
aangetroffen type:
- C = correcte spelling van corpustype
- I = incorrecte spelling van corpustype
- O = ongevalideerde spelling van corpustype
- V = gevalideerde spelling van corpustype
Als de spelling van de woordvorm in het corpus in orde bevonden
is, krijgt de lexiconingang de code V (gevalideerd). Bij een
incorrecte spelling wordt de code I (incorrect) toegekend.
Indien validatie van de woordvorm niet meer mogelijk was, wordt geen
uitspraak gedaan over de correctheid en krijgt de woordvorm het
neutrale label O (ongevalideerd). De code C (correct)
wordt gebruikt voor alternatieve, correcte lemmatiseringen van de
gevallen die als I, O of V zijn aangemerkt,
zoals:
396259\asielaanvragen\N(soort,mv,basis)\asielaanvrage\133817\C\
392625\asielaanvragen\N(soort,mv,basis)\asielaanvraag\131545\V\
- CGN_LEXICON.Definitie
Voor alle lemmata die meer dan eens met dezelfde woordsoort
zijn opgenomen om reden van onderscheiden vormkenmerken (zoals de
morfosyntactische eigenschappen genus of derivationele morfologie), in
combinatie met een betekenisverschil, is een bondige definitie
opgenomen ter onderscheiding van de lemmata, bijvoorbeeld:
73704\doorlopen\WW(inf,vrij,zonder)\doorlopen\23802\dor-'lo-p@\V\bewegen
door, tot het einde volgen\
73705\doorlopen\WW(inf,vrij,zonder)\doorlopen\501446\'dor-lo-p@\V\verder
lopen, vermengen van kleuren\
1 Centrum voor Lexicale
Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van
Nijmegen & Max Planck Instituut voor Psycholinguïstiek,
Nijmegen.
2 Referentiebestand Nederlands.
Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor
Nederlandse Lexicologie, Leiden & Departement Linguïstiek,
Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit
Utrecht.
3 FONILEX. Centre for
Computational Linguistics, Katholieke Universiteit Leuven & Centrum
voor Nederlandse Taal en Spraak, Universiteit Antwerpen & Vakgroep
voor Electronica en Informatiesystemen, Universiteit Gent
4 CGN-grafeem-foneemomzetter.
Zie:
Véronique Hoste, Steven Gillis en Walter Daelemans (Universiteit
Antwerpen), A Rule Induction Approach to Modeling Regional
Pronunciation Variation. In: Proceedings of COLING 2000,
Saarbrücken, Germany. San Francisco: Morgan Kaufman Publishers,
2000, pp. 327-333.
en:
Véronique Hoste, Steven Gillis en Walter Daelemans, Machine
Learning for Modeling Dutch Pronunciation Variation. Proceedings of
the tenth CLIN meeting, Utrecht, The Netherlands.
5 Grapheme to Phoneme convertor
(based on Fonpars rules), Radboud University Nijmegen, Department
Language and Speech (version March 2005).