Bestanden van het type .skp (signaalkoppelingsdata) zijn een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ttext.dtd. Dit formaat bevat behalve het transcript ook tijdsinformatie. De .skp-bestanden uit de map /data/annot/xml/skp-ort/ zijn afgeleid van het bestandtype .ort. Daarnaast zijn er skp-wrd-bestanden (/data/annot/xml/skp-wrd/) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype), en skp-auto-bestanden (/data/annot/xml/skp-auto/) die zijn afgeleid van de automatische woordoplijning (het .awd-bestandstype).
<ttext> | Een tijdgekoppelde tekst. |
<tau> | Een tijdgekoppelde annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken dat in dit formaat niet is opgenomen. |
<tw> | Een tijdgekoppeld woord binnen een tijdgekoppelde annotatie-eenheid (<tau>). |
<tmu> | Een tijdgekoppelde mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
<tm> | Een tijdgekoppelde marker binnen de tijdgekoppelde mark-upeenheid (<tmu>). |
ref | De referentiecode is opgebouwd uit
één, twee of drie delen (afhankelijk van het element
waartoe het behoort) die gescheiden worden door een punt. De betekenis
is als volgt: <fragmentnummer>.<t[am]u-rangnummer>.<t[wm]-rangnummer> |
s | Sprekeridentificatie. In de context van het <tau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKNOWN" waarbij x staat voor een cijfer. In de context van het <tmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
w | Het orthografisch transcript van een woord. |
m | Het orthografisch transcript van een marker. |
tb | Begintijd (in seconden) van een tijdgekoppelde annotatie-eenheid. |
te | Eindtijd (in seconden) van een tijdgekoppelde annotatie-eenheid. |
tt | Type van tijdspanne. Bij "eq" (equaliteit) valt de annotatie-eenheid samen met de tijdspanne die wordt begrensd door tb en te. Bij "in" (inclusie) valt de eenheid binnen de tijdspanne. |
tq | Kwaliteit van tijdspanne heeft één van
de volgende drie waarden: "man" (manueel): tijdgrenzen zijn door de mens aangebracht "auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd "auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bitsbereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.