Het .pri-formaat

Bestanden van het type .pri (primaire data) zijn afgeleid van het bestandtype .ort. Het is een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door text.dtd.


<?xml version="1.0"?>
<!DOCTYPE text SYSTEM "text.dtd">
<text id="fn123456">
  <mu id="fn123456.1" s="COMMENT">
    <m id="fn123456.1.1">                          De              </m>
    <m id="fn123456.1.2">                          televisie       </m>
    <m id="fn123456.1.3">                          staat           </m>
    <m id="fn123456.1.4">                          aan             </m>
    <m id="fn123456.1.5">                          op              </m>
    <m id="fn123456.1.6">                          de              </m>
    <m id="fn123456.1.7">                          achtergrond.    </m>
  </mu>
  <au id="fn123456.2" s="N01168">
    <w id="fn123456.2.1">                          maar            </w>
    <w id="fn123456.2.2">                          zij             </w>
    <w id="fn123456.2.3">                          gaat            </w>
    <w id="fn123456.2.4">                          uh              </w>
    <w id="fn123456.2.5">                          drankjes        </w>
    <w id="fn123456.2.6">                          verkopen        </w>
    <l id="fn123456.2.7">                          .               </l>
  </au>
  <au id="fn123456.3" s="N01167">
    <w id="fn123456.3.1">                          gratis          </w>
    <w id="fn123456.3.2">                          verkopen        </w>
    <l id="fn123456.3.3">                          ?               </l>
  </au>
  ...
  <au id="fn123456.4" s="N01168">
    <w id="fn123456.4.1">                          nou             </w>
    <w id="fn123456.4.2">                          ok&eacute;      </w>
    <l id="fn123456.4.3">                          .               </l>
  </au>
  <mu id="fn123456.5" s="BACKGROUND">
    <m id="fn123456.5.1">                          inschenken      </m>
    <m id="fn123456.5.2">                          water.          </m>
  </mu>
  <au id="fn123456.6" s="N01169">
    <w id="fn123456.6.1">                          dat             </w>
    <w id="fn123456.6.2">                          hoorde          </w>
    <w id="fn123456.6.3" marked="incomplete">      i               </w>
    <l id="fn123456.6.4">                          ...             </l>
  </au>
  ...
</text>

<text> Tekst.
<au> Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<w> Een woord binnen een annotatie-eenheid (<au>).
<l> Het leesteken binnen een annotatie-eenheid (<au>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?".
<mu> Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<m> Een marker binnen de mark-upeenheid (<mu>).
s Sprekeridentificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKNOWN waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND.
id De identificatiecode is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is als volgt:
<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>
marked Vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <w>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. *v, *d, *a, *u, *z en *x).

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in text.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.