Bestandstypen en -formaten

Binnen het project Corpus Gesproken Nederlands zijn diverse bestandstypen en -formaten in omloop. Hieronder wordt een overzicht gegeven van de bestandstypen zoals u die in deze uitgave van het corpus aantreft. Er wordt een korte omschrijving gegeven, de locatie (directory) waarin de desbetreffende bestanden te vinden zijn, wordt aangeduid en er wordt verwezen naar de beschrijving van het specifieke formaat (klik op het betreffende bestandstype). Alle annotatiebestanden (d.w.z. alle hier beschreven bestandstypen m.u.v. het .wav-type) zijn MS-DOS/Windowscompatibel (het einde van een regel wordt aangeduid met CR/LF). Daarnaast zijn alle annotatiebestanden op de annotatie-dvd (CGN_ANN_V1.0) onder /data/annot/ gecomprimeerd met gzip (GNU zip), te herkennen aan de .gz-extensie (bijv. fn000001.ort.gz). Een .gz-bestand dient eerst uitgepakt te worden, alvorens het met een teksteditor kan worden bekeken. Voor het bekijken van de XML-bestanden met COREX is het niet nodig om de bestanden te decomprimeren.

Binaire formaten
bestandstype omschrijving directory
wav audiobestanden in WAVE-formaat /data/audio/wav *
Tekstformaten
bestandstype omschrijving directory
ort bestanden met orthografische transcripten en signaalkoppeling op chunkniveau in ShortTextGrid-formaat /data/annot/text/ort
plk bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en aanduiding van meerwoordsuitdrukkingen in tekstformaat /data/annot/text/plk
syn bestanden met een syntactische annotatie in NeGra-formaat /data/annot/text/syn
pro bestanden met prosodische annotaties in ShortTextGrid-formaat /data/annot/text/pro1
/data/annot/text/pro2
fon bestanden met een manueel geverifieerde brede fonetische transcriptie in ShortTextGrid-formaat /data/annot/text/fon
wrd bestanden met een manueel geverifieerde woordsegmentatie in ShortTextGrid-formaat /data/annot/text/wrd
awd bestanden met een automatische woord- en foneemsegmentatie in ShortTextGrid-formaat /data/annot/text/awd
XML-formaten
bestandstype omschrijving directory
pri bestanden met orthografische transcripties in XML-formaat /data/annot/xml/pri
skp bestanden met orthografische transcripties en signaalkoppeling in XML-formaat /data/annot/xml/skp-auto
/data/annot/xml/skp-ort
/data/annot/xml/skp-wrd
tag bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat /data/annot/xml/tag
lxk bestanden met een lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat /data/annot/xml/lxk
tig bestanden met syntactische annotaties in XML-formaat /data/annot/xml/tig
bpt bestanden met een manueel geverifieerde woordsegmentatie (bpt-fon), of een automatische woordsegmentatie en automatische brede fonetische transcripties met duur van de individuele fonemen (bpt-auto) in XML-formaat /data/annot/xml/bpt-fon
/data/annot/xml/bpt-auto
prx bestanden met prosodische annotaties in XML-formaat /data/annot/xml/prx1
/data/annot/xml/prx2
lex lexiconbestanden in XML-formaat /data/lexicon/xml

*Bestanden met de extensie .wav bevinden zich op aparte geluids-dvd's. Voor meer informatie, zie het overzicht van geluidsfragmenten.