Bestanden van het type .bpt (broad phonetic transcription) bevatten een chronologische weergave van de woordsegmentatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ftext.dtd. De .bpt-bestanden uit de map /data/annot/xml/bpt-auto/ zijn afgeleid van de automatische woordsegmentatie (het bestandstype .awd). In deze bestanden zijn ook de duren van de afzonderlijke fonen beschikbaar. Daarnaast zijn er bpt-fon-bestanden (/data/annot/xml/bpt-fon/) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype).
<ftext> | Tekst met een brede fonetische transcriptie, woordsegmentatie en foonsegmentatie. | |||||||||||||||
<fau> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | |||||||||||||||
<fw> | Een woord binnen de annotatie-eenheid (<fau>). | |||||||||||||||
<fmu> | Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | |||||||||||||||
<tm> | Een marker binnen de mark-upeenheid (<fmu>). | |||||||||||||||
<fl> | Een leesteken binnen de annotatie-eenheid (<fau>). | |||||||||||||||
ref | De referentiecode is opgebouwd uit
één, twee of drie delen (afhankelijk van het element
waartoe het behoort) die gescheiden worden door een punt. De betekenis
is als volgt: <fragmentnummer>.<f[am]u-rangnummer>.<f[wm]-rangnummer> |
|||||||||||||||
s | Sprekeridentificatie. In de context van het <fau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKNOWN" waarbij x staat voor een cijfer. In de context van het <fmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". | |||||||||||||||
w | Het orthografisch transcript van het woord in de context van <fw> of een leesteken (".", "..." of "?") in de context van <fl>. | |||||||||||||||
fon | Het fonetisch transcript van het woord. Naast de tekens uit de fonetische symbolenset die wordt opgesomd in de beschrijving van het .fon-formaat wordt het procentteken '%' gebruikt om een woordinterne pauze aan te duiden. | |||||||||||||||
left/right | De aard van de linker-/rechtergrens van het woord. Dit
attribuut kent 5 types waarden:
|
|||||||||||||||
marked | Vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <fw>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain. | |||||||||||||||
fq | Kwaliteit van tijdspanne heeft een van de volgende
drie waarden: "man" (manueel): tijdgrenzen zijn door de mens aangebracht. "auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd. "auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn. |
|||||||||||||||
times | Bevat de tijdstippen van de foongrenzen. Het attribuut bevat altijd N+1 tijdstippen waarbij N = aantal fonemen + eventuele woordinterne pauzes ('%'). Het eerste tijdstip duidt het begin van het eerste foneem aan, het tweede het begin van het foneem, enz. Het laatste tijdstip duidt de eindgrens aan van het laatste foneem. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ftext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.