Bestanden van het type .lxk (lexicologische koppeling) zijn een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ltext.dtd.
<ltext> | Tekst met lexicologische koppeling. |
<lau> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<lw> | Een woord binnen de annotatie-eenheid <lau>. |
<lmu> | Een mark-upeenheid die COMMENT– of BACKGROUND-informatie kan bevatten. |
<lm> | Een marker binnen de mark-upeenheid <lmu>. |
<lkop> | Een koppelingseenheid binnen een woord <lw>. |
ref | De identificatiecode is opgebouwd uit één, twee
of drie delen (afhankelijk van het element waartoe het behoort) die
gescheiden worden door een punt. De betekenis is als volgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
s | Sprekeridentificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKNOWN" waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
w | Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden). |
klem | Lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma. |
nlid | Lexicon-ID van het enkel- of meerwoordslemma. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt) tenzij het een meerwoordsuitdrukking betreft. In dat geval verwijst het ID naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt). Meerdere mogelijke verwijzingen naar het lexicon worden gescheiden door een horizontale streep "|" (bijv. nlid="16763|16764). nlid="0" wanneer geen overeenkomstig lemma in het lexicon voorkomt. |
ksize | Het aantal delen van de meerwoordsuitdrukking. In geval van een enkelwoordsuitdrukking is ksize="1". |
kparts | Referenties naar de afzonderlijke delen van de
meerwoordsuitdrukking: <annotatie-eenheidrangnummer>.<woordrangnummer> |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ltext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.