Het .tig-formaat

Bestanden van het type .tig (syntactische annotatie) bevatten een chronologische weergave van de syntactische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door stext.dtd. De .tig-bestanden zijn te vinden in /data/annot/xml/tig/ en kunnen worden bekeken met COREX. Het formaat is gebaseerd op het Tiger-formaat waarmee het programma TigerSearch werkt. Zie stext.dtd voor informatie m.b.t. de compatibiliteit.


<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?>
<subcorpus name="fn123456">
<s id="fn123456.1">
<graph root="fn123456.1.506">
<terminals>
 <t id="fn123456.1.1" word="in" pos="VZ1" morph="T701"/>
 <t id="fn123456.1.2" word="de" pos="LID" morph="T602"/>
 <t id="fn123456.1.3" word="Amsterdam" pos="SPEC" morph="T005"/>
 <t id="fn123456.1.4" word="Arena" pos="SPEC" morph="T005"/>
 <t id="fn123456.1.5" word="is" pos="WW1" morph="T301"/>
 <t id="fn123456.1.6" word="Sensation" pos="N5" morph="T110"/>
 <t id="fn123456.1.7" word="de" pos="LID" morph="T602"/>
 <t id="fn123456.1.8" word="grootste" pos="ADJ3" morph="T208"/>
 <t id="fn123456.1.9" word="houseparty" pos="N1" morph="T101"/>
 <t id="fn123456.1.10" word="ter" pos="VZ3" morph="T703"/>
 <t id="fn123456.1.11" word="wereld" pos="N1" morph="T101"/>
 <t id="fn123456.1.12" word="gehouden" pos="WW7" morph="T320"/>
 <t id="fn123456.1.13" word="." pos="LET" morph="T007"/>
</terminals>
<nonterminals>
 <nt id="fn123456.1.500" cat="MWU">
  <edge label="MWP" idref="fn123456.1.3"/>
  <edge label="MWP" idref="fn123456.1.4"/>
 </nt>
 <nt id="fn123456.1.501" cat="PP">
  <edge label="HD" idref="fn123456.1.10"/>
  <edge label="OBJ1" idref="fn123456.1.11"/>
 </nt>
 <nt id="fn123456.1.502" cat="NP">
  <edge label="DET" idref="fn123456.1.2"/>
  <edge label="HD" idref="fn123456.1.500"/>
 </nt>
 <nt id="fn123456.1.503" cat="NP">
  <edge label="DET" idref="fn123456.1.7"/>
  <edge label="MOD" idref="fn123456.1.8"/>
  <edge label="HD" idref="fn123456.1.9"/>
  <edge label="MOD" idref="fn123456.1.501"/>
 </nt>
 <nt id="fn123456.1.504" cat="PP">
  <edge label="HD" idref="fn123456.1.1"/>
  <edge label="OBJ1" idref="fn123456.1.502"/>
 </nt>
 <nt id="fn123456.1.505" cat="NP">
  <edge label="HD" idref="fn123456.1.6"/>
  <edge label="APPOS" idref="fn123456.1.503"/>
 </nt>
 <nt id="fn123456.1.506" cat="SMAIN">
  <edge label="HD" idref="fn123456.1.5"/>
  <edge label="VC" idref="fn123456.1.12"/>
  <edge label="MOD" idref="fn123456.1.504"/>
  <edge label="SU" idref="fn123456.1.505"/>
 </nt>
</nonterminals>
</graph>
</s>
<s id="fn123456.2">
<graph root="fn123456.2.506">
<terminals>
 <t id="fn123456.2.1" word="zo'n" pos="VNW21" morph="U528c"/>
 <t id="fn123456.2.2" word="veertigduizend" pos="TW1" morph="T401"/>
 <t id="fn123456.2.3" word="bezoekers" pos="N3" morph="T107"/>
 <t id="fn123456.2.4" word="gingen" pos="WW2" morph="T305"/>
 <t id="fn123456.2.5" word="uit" pos="VZ1" morph="T701"/>
 <t id="fn123456.2.6" word="hun" pos="VNW11" morph="U509o"/>
 <t id="fn123456.2.7" word="dak" pos="N1" morph="T102"/>
 <t id="fn123456.2.8" word="tijdens" pos="VZ1" morph="T701"/>
 <t id="fn123456.2.9" word="het" pos="LID" morph="T601"/>
 <t id="fn123456.2.10" word="dansfeest" pos="N1" morph="T102"/>
 <t id="fn123456.2.11" word="." pos="LET" morph="T007"/>
</terminals>
<nonterminals>
 <nt id="fn123456.2.500" cat="DETP">
  <edge label="MOD" idref="fn123456.2.1"/>
  <edge label="HD" idref="fn123456.2.2"/>
 </nt>
 <nt id="fn123456.2.501" cat="NP">
  <edge label="DET" idref="fn123456.2.6"/>
  <edge label="HD" idref="fn123456.2.7"/>
 </nt>
 <nt id="fn123456.2.502" cat="NP">
  <edge label="DET" idref="fn123456.2.9"/>
  <edge label="HD" idref="fn123456.2.10"/>
 </nt>
 <nt id="fn123456.2.503" cat="NP">
  <edge label="HD" idref="fn123456.2.3"/>
  <edge label="DET" idref="fn123456.2.500"/>
 </nt>
 <nt id="fn123456.2.504" cat="PP">
  <edge label="HD" idref="fn123456.2.5"/>
  <edge label="OBJ1" idref="fn123456.2.501"/>
 </nt>
 <nt id="fn123456.2.505" cat="PP">
  <edge label="HD" idref="fn123456.2.8"/>
  <edge label="OBJ1" idref="fn123456.2.502"/>
 </nt>
 <nt id="fn123456.2.506" cat="SMAIN">
  <edge label="HD" idref="fn123456.2.4"/>
  <edge label="SU" idref="fn123456.2.503"/>
  <edge label="SVP" idref="fn123456.2.504"/>
  <edge label="MOD" idref="fn123456.2.505"/>
 </nt>
</nonterminals>
</graph>
</s>
</subcorpus>

<subcorpus> Fragment met een syntactische annotatie.
<s> Zin met een syntactische annotatie.
<graph> Grafische voorstelling van de syntactische annotatie.
<terminals> Lijst van terminale knopen, eindknopen <t>.
<nonterminals> Lijst van non-terminale knopen <nt>.
<edge> Syntactische functie.
<secedge> Syntactische functie.
<nt> Non-terminale knoop.
<t> Terminale knoop.
root ID van de moederknoop van zin <s>.
id Unieke knoopidentificatie, met <fragmentnummer>.<zinsrangnummer>.<knoopnummer>, waarbij <knoopnummer> voor zowel terminale als non-terminale knopen geldt.
word Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden).
pos Part-of-speechtag (woordsoort) van de terminale knoop. Deze POS-tag is een vereenvoudigde/afgeleide versie van de POS-tag in morph (zie hierna). Zie corpus.header (XML) of negra.header (tekst) voor een opsomming van de gebruikte tagset.
morhp Part-of-speechtag corresponderend met de POS-tag uit attribuut pos. Zie corpus.header (XML) of negra.header (tekst) voor een mapping tussen de verkorte labelnotatie en de volledige POS-tags (vgl. data in de .plk-bestanden).
cat Knooplabel, de syntactische categorie van een non-terminale knoop.
label Syntactische functie. Zie corpus.header (XML) of negra.header (tekst) voor een verklarende lijst van de gebruikte labels.
idref Verwijzing naar de id van de dochterknoop.

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in stext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.