Het .prx-formaat

Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd. De .prx-bestanden zijn te vinden in /data/annot/xml/prx1/ en /data/annot/xml/prx2/.

<?xml version="1.0"?>
<!DOCTYPE prtext SYSTEM "prtext.dtd">
<prtext ref="fn123456">
<prau ref="fn123456.1" s="N02008">
  <prw ref="fn123456.1.1"       w="je"         annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="auto"    rightb="none"/>
  <prw ref="fn123456.1.2"       w="kunt"       annot="kunt"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.3"       w="ook"        annot="ook"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.4"       w="ha"         annot="ha"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.5"       w="tegen"      annot="tegen"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.6"       w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.7"       w="zeggen"     annot="z^e^ggen"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.8"       w="dat"        annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.9"       w="ik"         annot="ik"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.10"      w="best"       annot="best"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.11"      w="bereid"     annot="bereid"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.12"      w="ben"        annot="ben"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.13"      w="een"        annot="een"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.14"      w="uh"         annot="uh"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.1.15"      w="glansrol"   annot="gl^a^ns|r^o^l"
     nprom="2"          nlength="0"     nweakb="1"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="weak"    rightb="auto"/>
  <prl ref="fn123456.1.16"      w="..."/>
</prau>
<prau ref="fn123456.2" s="N02008">
  <prw ref="fn123456.2.1"       w="vind"        annot="v^i^nd"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="strong"  rightb="none"/>
  <prw ref="fn123456.2.2"       w="je"          annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.3"       w="nou"         annot="nou"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.4"       w="dat"         annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.5"       w="je"          annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.6"       w="kan"        annot="kan"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.7"       w="zien"       annot="z^ie^%n%"
     nprom="1"          nlength="1"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.2.8"       w="dat"        annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="weak"    rightb="none"/>
  <prw ref="fn123456.2.9"       w="zij"        annot="zij"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.10"      w="toneel"     annot="ton^ee^l"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="auto"/>
  <prw ref="fn123456.2.11"      w="doet"       annot="doet"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="458.499"     tend="458.724"  leftb="auto"    rightb="auto"/>
  <prw ref="fn123456.2.12"      w="in"         annot="in"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="auto"    rightb="none"/>
  <prw ref="fn123456.2.13"      w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.14"      w="in"         annot="in"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.15"      w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.16"      w="privé-s-uh-appearance"
     annot="privé-s-||uh-app^ea^rance"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="1"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.2.17"      w="zeg"        annot="zeg"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="weak"    rightb="none"/>
  <prw ref="fn123456.2.18"      w="maar"       annot="maar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="auto"/>
  <prl ref="fn123456.2.19"      w="?"/>
</prau>
</prtext>

<prtext>

Tekst met prosodische annotatie.

<prau>

Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.

<prw>

Een woord binnen een annotatie-eenheid (<prau>).

<prl>

Het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?".

<prmu>

Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten.

<prm>

Een marker binnen de mark-upeenheid (<prmu>).

ref

De identificatiecode is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is als volgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>.

Sprekeridentificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKNOWN waarbij x staat voor een cijfer.

Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden).

annot

Prosodische annotatie die aan de woordvorm is toegekend.

nprom

Aantal prominente lettergrepen in de woordvorm.

nlength

Aantal verlengde klanken in de woordvorm.

nweakb

Aantal zwakke grenzen in de woordvorm.

nstrongb

Aantal sterke grenzen in de woordvorm.

tbeg

Tijdsmarkering van begin van <prau>.

tend

Tijdsmarkering van eind van <prau>.

leftb/rightb

Karakter van linker-/rechtergrens. De volgende waarden zijn mogelijk:

auto	:	prosodische grens is geplaatst door een machine
none	:	het is geen prosodische grens
weak	:	de prosodische grens is gemarkeerd als zwak ("\|")
strong	:	de prosodische grens is gemarkeerd als sterk ("\|\|")

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in prtext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.