Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd. De .prx-bestanden zijn te vinden in /data/annot/xml/prx1/ en /data/annot/xml/prx2/.
| <prtext> | Tekst met prosodische annotatie. | ||||||||||||
| <prau> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | ||||||||||||
| <prw> | Een woord binnen een annotatie-eenheid (<prau>). | ||||||||||||
| <prl> | Het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". | ||||||||||||
| <prmu> | Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | ||||||||||||
| <prm> | Een marker binnen de mark-upeenheid (<prmu>). | ||||||||||||
| ref | De identificatiecode is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is als volgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>. | ||||||||||||
| s | Sprekeridentificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKNOWN waarbij x staat voor een cijfer. | ||||||||||||
| w | Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden). | ||||||||||||
| annot | Prosodische annotatie die aan de woordvorm is toegekend. | ||||||||||||
| nprom | Aantal prominente lettergrepen in de woordvorm. | ||||||||||||
| nlength | Aantal verlengde klanken in de woordvorm. | ||||||||||||
| nweakb | Aantal zwakke grenzen in de woordvorm. | ||||||||||||
| nstrongb | Aantal sterke grenzen in de woordvorm. | ||||||||||||
| tbeg | Tijdsmarkering van begin van <prau>. | ||||||||||||
| tend | Tijdsmarkering van eind van <prau>. | ||||||||||||
| leftb/rightb | Karakter van linker-/rechtergrens. De volgende waarden zijn
mogelijk:
|
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in prtext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.