Bestandstypen en -formaten

Binnen het project Corpus Gesproken Nederlands zijn diverse bestandstypen en -formaten in omloop. Hieronder wordt een overzicht gegeven van de bestandstypen zoals u die in deze uitgave van het corpus aantreft. Er wordt een korte omschrijving gegeven, de locatie (directory) waarin de desbetreffende bestanden te vinden zijn, wordt aangeduid en er wordt verwezen naar de beschrijving van het specifieke formaat (klik op het betreffende bestandstype). Alle annotatiebestanden (d.w.z. alle hier beschreven bestandstypen m.u.v. het .wav-type) zijn MS-DOS/Windowscompatibel (het einde van een regel wordt aangeduid met CR/LF). Daarnaast zijn alle annotatiebestanden op de annotatie-dvd (CGN_ANN_V1.0) onder /data/annot/ gecomprimeerd met gzip (GNU zip), te herkennen aan de .gz-extensie (bijv. fn000001.ort.gz). Een .gz-bestand dient eerst uitgepakt te worden, alvorens het met een teksteditor kan worden bekeken. Voor het bekijken van de XML-bestanden met COREX is het niet nodig om de bestanden te decomprimeren.

bestandstype	omschrijving	directory
Binaire formaten
wav	audiobestanden in WAVE-formaat	/data/audio/wav^*
Tekstformaten
bestandstype	omschrijving	directory
ort	bestanden met orthografische transcripten en signaalkoppeling op chunkniveau in ShortTextGrid-formaat	/data/annot/text/ort
plk	bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en aanduiding van meerwoordsuitdrukkingen in tekstformaat	/data/annot/text/plk
syn	bestanden met een syntactische annotatie in NeGra-formaat	/data/annot/text/syn
pro	bestanden met prosodische annotaties in ShortTextGrid-formaat	/data/annot/text/pro1
pro		/data/annot/text/pro2
fon	bestanden met een manueel geverifieerde brede fonetische transcriptie in ShortTextGrid-formaat	/data/annot/text/fon
wrd	bestanden met een manueel geverifieerde woordsegmentatie in ShortTextGrid-formaat	/data/annot/text/wrd
awd	bestanden met een automatische woord- en foneemsegmentatie in ShortTextGrid-formaat	/data/annot/text/awd
XML-formaten
bestandstype	omschrijving	directory
pri	bestanden met orthografische transcripties in XML-formaat	/data/annot/xml/pri
skp	bestanden met orthografische transcripties en signaalkoppeling in XML-formaat	/data/annot/xml/skp-auto
		/data/annot/xml/skp-ort
		/data/annot/xml/skp-wrd
tag	bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat	/data/annot/xml/tag
lxk	bestanden met een lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat	/data/annot/xml/lxk
tig	bestanden met syntactische annotaties in XML-formaat	/data/annot/xml/tig
bpt	bestanden met een manueel geverifieerde woordsegmentatie (bpt-fon), of een automatische woordsegmentatie en automatische brede fonetische transcripties met duur van de individuele fonemen (bpt-auto) in XML-formaat	/data/annot/xml/bpt-fon
bpt		/data/annot/xml/bpt-auto
prx	bestanden met prosodische annotaties in XML-formaat	/data/annot/xml/prx1
prx	bestanden met prosodische annotaties in XML-formaat	/data/annot/xml/prx2
lex	lexiconbestanden in XML-formaat	/data/lexicon/xml

^*Bestanden met de extensie .wav bevinden zich op aparte geluids-dvd's. Voor meer informatie, zie het overzicht van geluidsfragmenten.