Bestanden van het type .tig (syntactische annotatie) bevatten een chronologische weergave van de syntactische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door stext.dtd. De .tig-bestanden zijn te vinden in /data/annot/xml/tig/ en kunnen worden bekeken met COREX. Het formaat is gebaseerd op het Tiger-formaat waarmee het programma TigerSearch werkt. Zie stext.dtd voor informatie m.b.t. de compatibiliteit.
<subcorpus> | Fragment met een syntactische annotatie. |
<s> | Zin met een syntactische annotatie. |
<graph> | Grafische voorstelling van de syntactische annotatie. |
<terminals> | Lijst van terminale knopen, eindknopen <t>. |
<nonterminals> | Lijst van non-terminale knopen <nt>. |
<edge> | Syntactische functie. |
<secedge> | Syntactische functie. |
<nt> | Non-terminale knoop. |
<t> | Terminale knoop. |
root | ID van de moederknoop van zin <s>. |
id | Unieke knoopidentificatie, met <fragmentnummer>.<zinsrangnummer>.<knoopnummer>, waarbij <knoopnummer> voor zowel terminale als non-terminale knopen geldt. |
word | Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden). |
pos | Part-of-speechtag (woordsoort) van de terminale knoop. Deze POS-tag is een vereenvoudigde/afgeleide versie van de POS-tag in morph (zie hierna). Zie corpus.header (XML) of negra.header (tekst) voor een opsomming van de gebruikte tagset. |
morhp | Part-of-speechtag corresponderend met de POS-tag uit attribuut pos. Zie corpus.header (XML) of negra.header (tekst) voor een mapping tussen de verkorte labelnotatie en de volledige POS-tags (vgl. data in de .plk-bestanden). |
cat | Knooplabel, de syntactische categorie van een non-terminale knoop. |
label | Syntactische functie. Zie corpus.header (XML) of negra.header (tekst) voor een verklarende lijst van de gebruikte labels. |
idref | Verwijzing naar de id van de dochterknoop. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in stext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.