Bestanden van het type .ort bevatten de orthografische transcriptie in tekstformaat en kunnen worden gemaakt, gewijzigd of bekeken met behulp van het programma PRAAT. In PRAAT worden de .ort-bestanden gemaakt met 'Write to short text file...' in het "Write"-menu. Voor uitwisseling wordt het ShortTextGrid-formaat verkozen boven het TextGrid-formaat vanwege een compactere notatie en daarmee kleinere bestandsgrootte. De structuur van een ShortTextGrid laat zich op de volgende manier beschrijven:
Opmerking: niet-letterlijke tekst wordt hieronder gemarkeerd met {...}. Regelnummering, hier ter illustratie, vormt geen onderdeel van het formaat.
De eerste drie regels zijn steeds hetzelfde.
1. | File type = "ooTextFile short" |
2. | "TextGrid" |
3. | {lege regel} |
Op regel 4 en 5 staat beschreven over welke tijdspanne het transcript gaat. Tijd staat hier aangeduid in seconden, en met drie decimalen achter een punt (geen komma).
4. | {begintijdstip} |
5. | {eindtijdstip} |
Regel 6 en 7 beschrijven hoeveel tiers er in het bestand voorkomen.
6. | <exists> |
7. | {aantal tiers} |
Regel 8 tot en met 12 bevat informatie over de eerste tier.
8. | "IntervalTier" |
9. | "{Sprekernaam}" |
10. | {begintijdstip} |
11. | {eindtijdstip} |
12. | {aantal intervallen in tier} |
Regel 13 tot en met 15 beschrijven het allereerste interval.
13. | {begintijdstip} |
14. | {eindtijdstip} |
15. | "{orthografisch transcript}" |
Hierna komen alle volgende intervallen van de eerste tier in chronologische volgorde zoals regel 13 tot en met 15. Elke volgende tier komt na alle intervallen van de vorige tier, en heeft de structuur zoals die van de eerste tier vanaf regel 8.
In het orthografisch transcript kan een woord met een van de volgende suffixen worden gemarkeerd:
*v | vreemd woord, niet tot de Nederlandse taal behorend |
*d | dialectisch woord |
*a | afgebroken (incompleet) woord |
*u | verspreking of klanknabootsing |
*z | woord met een dialectische uitspraak |
*x | moeilijk te verstaan woord |
Daarnaast zijn er een drietal speciale codes:
ggg | een niet-spraakgeluid, geproduceerd door de spreker |
xxx | één of meerdere onverstaanbare woorden of woorddelen |
Xxx | een onverstaanbaar woord waarvan duidelijk is dat het een titel of eigennaam betreft |
Al deze codes kunnen staan voor een woord, een deel van een woord of een reeks van woorden. Waar van toepassing wordt de code van het woorddeel gescheiden door middel van het koppelteken ("-"). Bijvoorbeeld: "xxx-enzeventig" of "achten-xxx-tig".
De leestekens zijn beperkt tot de volgende set van drie:
"." | de punt markeert het einde van de zin |
"..." | drie aaneengesloten punten markeren een afgebroken zin |
"?" | het vraagteken markeert de afsluiting van een vraagzin |
Alle diakritische tekens die in het orthografisch transcript voorkomen, zijn gecodeerd volgens de ISO-8859.1-standaard. In entities.htm wordt een overzicht gegeven van de gebruikte bijzondere tekens (ISO-kolom) uit deze tekenset. PRAAT is in staat om de ISO-codes correct weer te geven onder UNIX (en varianten) en Windows.