Bestanden van het type .pri (primaire data) zijn afgeleid van het bestandtype .ort. Het is een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door text.dtd.
<text> | Tekst. |
<au> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<w> | Een woord binnen een annotatie-eenheid (<au>). |
<l> | Het leesteken binnen een annotatie-eenheid (<au>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". |
<mu> | Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
<m> | Een marker binnen de mark-upeenheid (<mu>). |
s | Sprekeridentificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKNOWN waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND. |
id | De identificatiecode is opgebouwd uit
één, twee of drie delen (afhankelijk van het element
waartoe het behoort) die gescheiden worden door een punt. De betekenis
is als volgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
marked | Vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <w>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. *v, *d, *a, *u, *z en *x). |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in text.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.