Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd. De .prx-bestanden zijn te vinden in /data/annot/xml/prx1/ en /data/annot/xml/prx2/.
<prtext> | Tekst met prosodische annotatie. | ||||||||||||
<prau> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | ||||||||||||
<prw> | Een woord binnen een annotatie-eenheid (<prau>). | ||||||||||||
<prl> | Het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". | ||||||||||||
<prmu> | Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | ||||||||||||
<prm> | Een marker binnen de mark-upeenheid (<prmu>). | ||||||||||||
ref | De identificatiecode is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is als volgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>. | ||||||||||||
s | Sprekeridentificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKNOWN waarbij x staat voor een cijfer. | ||||||||||||
w | Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden). | ||||||||||||
annot | Prosodische annotatie die aan de woordvorm is toegekend. | ||||||||||||
nprom | Aantal prominente lettergrepen in de woordvorm. | ||||||||||||
nlength | Aantal verlengde klanken in de woordvorm. | ||||||||||||
nweakb | Aantal zwakke grenzen in de woordvorm. | ||||||||||||
nstrongb | Aantal sterke grenzen in de woordvorm. | ||||||||||||
tbeg | Tijdsmarkering van begin van <prau>. | ||||||||||||
tend | Tijdsmarkering van eind van <prau>. | ||||||||||||
leftb/rightb | Karakter van linker-/rechtergrens. De volgende waarden zijn
mogelijk:
|
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in prtext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.