Het .awd-formaat
Bestanden van het type .awd (te vinden in /data/annot/text/awd/)
bevatten een automatisch gegenereerde woordoplijning, waarbij de
woorden van het orthografisch transcript zijn gekoppeld aan het
geluidssignaal. Daarnaast bevatten de bestanden een automatisch
gegenereerde foneemoplijning, waarbij tevens de afzonderlijke fonemen
uit
de automatische fonetische transcripties zijn gekoppeld aan het
geluidssignaal. De bestanden zijn in ShortTextGrid-formaat en kunnen
worden gemaakt, gewijzigd of bekeken met behulp van het programma PRAAT. Voor
een beschrijving van het ShortTextGrid-formaat, zie beschrijving van
het .ort-formaat. Voor iedere spreker
zijn drie tiers voorzien. De eerste tier heeft de sprekercode als
tiernaam en is identiek aan de gelijknamige tier in het .ort-bestand.
De daaropvolgende tier krijgt dezelfde naam met suffix _FON
(resp. N98765 en N98765_FON) en bevat een automatische fonetische
transcriptie. De tijdmarkeringen op deze beide tiers zijn gelijk. Tot
slot is er nog een derde tier met dezelfde naam en met suffix _SEG (N98765_SEG).
Hierin zijn de onderliggende foneemsegmentaties weergegeven die
overeenkomen met de woorden in de twee andere tiers.
Een interval in de tier met orthografisch transcript is gevuld met
ofwel precies één woord (al dan niet met underscores),
ofwel een enkele underscore ("_"), ofwel een pauze (leeg interval),
ofwel een tekst (meerdere woorden) zoals die voorkomt in precies dat
interval in het .ort bestand. In dit laatste geval is de tier met de
fonetische transcriptie en de tier met de foneemsegmentatie gevuld met
de automatisch gegenereerde fonetische transcriptie dus zonder
segmentatie-informatie. Tevens zijn intervallen van dit type in alle
drie de tiers altijd voorzien van een "!" voor de tekst, wat aangeeft
dat de gevonden segmentatie (die er niet is) niet betrouwbaar is. Een
"!" kan ook geplaatst zijn als er wel een segmentatie gevonden kon
worden, maar waarvoor gold dat deze onbetrouwbaar was, gegeven een
bepaalde betrouwbaarheidswaarde.
In de tier met het fonetisch transcript kunnen de volgende
verschijnselen zich voordoen:
- In het geval dat in het .fon-bestand een foneem is
aangeduid als zijnde gedeeld door twee woorden, dan kunnen zich de
volgende twee situaties voordoen:
- het gedeelde foneem is geen plosief (zie voor de verzameling
van plosieven de beschrijving van het .fon-formaat).
Aan beide zijden van de grens die de twee woorden scheidt, wordt een "="
weergegeven, wat aanduidt dat de twee woorden respectievelijk het
laatste en het eerste foneem delen.
- het gedeelde foneem is een plosief, en dus akoestisch gezien
ondeelbaar. Een apart segment is gedefinieerd dat precies de gedeelde
plosief bevat en wordt gelabeld met "_", in zowel de
tier met het fonetisch transcript als de tier met de orthografisch
weergave. Indien de gedeelde plosief tevens precies een transcriptie is
van een woord, waardoor de plosief gedeeld wordt met zichzelf en het
daaropvolgende of voorafgaande woord, dan wordt in het segment tevens
het fonetisch label van deze plosief geschreven met daarbij de "_"
aan de zijde waaraan de plosief gedeeld wordt.
- In het geval dat omwille van de uitspraak twee woorden worden
verbonden middels een tussenklank, wordt dit weergegeven in de tier met
het fonetisch transcript middels aan beide zijden van de grens de
tussenklank te verbinden aan het woord met een koppelteken ("-").
In de tier met de foneemsegmentaties komen alleen lege intervallen
of intervallen met daarin één foneemsymbool voor, waarbij
een "_"-segment uit de orthografische en fonetische tier hier is
gelabeld met het foneem (een plosief) dat gedeeld werd. Overeenkomstig
is een gedeeld foneem dat geen plosief is in deze tier weergeven in
één interval waarbij de woordgrenzen in de orthografische
en de fonetische tier midden in dit interval liggen.
Voor een overzicht van de gebruikte fonetische symbolen, zie
beschrijving van het .fon-formaat.
Analoog aan het .wrd-formaat bevat een .awd-bestand
geen BACKGROUND- en/of COMMENT-tier.