Binnen het project Corpus Gesproken Nederlands zijn diverse bestandstypen en -formaten in omloop. Hieronder wordt een overzicht gegeven van de bestandstypen zoals u die in deze uitgave van het corpus aantreft. Er wordt een korte omschrijving gegeven, de locatie (directory) waarin de desbetreffende bestanden te vinden zijn, wordt aangeduid en er wordt verwezen naar de beschrijving van het specifieke formaat (klik op het betreffende bestandstype). Alle annotatiebestanden (d.w.z. alle hier beschreven bestandstypen m.u.v. het .wav-type) zijn MS-DOS/Windowscompatibel (het einde van een regel wordt aangeduid met CR/LF). Daarnaast zijn alle annotatiebestanden op de annotatie-dvd (CGN_ANN_V1.0) onder /data/annot/ gecomprimeerd met gzip (GNU zip), te herkennen aan de .gz-extensie (bijv. fn000001.ort.gz). Een .gz-bestand dient eerst uitgepakt te worden, alvorens het met een teksteditor kan worden bekeken. Voor het bekijken van de XML-bestanden met COREX is het niet nodig om de bestanden te decomprimeren.
Binaire formaten
|
||
bestandstype | omschrijving | directory |
---|---|---|
wav | audiobestanden in WAVE-formaat | /data/audio/wav * |
Tekstformaten
|
||
bestandstype | omschrijving | directory |
ort | bestanden met orthografische transcripten en signaalkoppeling op chunkniveau in ShortTextGrid-formaat | /data/annot/text/ort |
plk | bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en aanduiding van meerwoordsuitdrukkingen in tekstformaat | /data/annot/text/plk |
syn | bestanden met een syntactische annotatie in NeGra-formaat | /data/annot/text/syn |
pro | bestanden met prosodische annotaties in ShortTextGrid-formaat | /data/annot/text/pro1 |
/data/annot/text/pro2 | ||
fon | bestanden met een manueel geverifieerde brede fonetische transcriptie in ShortTextGrid-formaat | /data/annot/text/fon |
wrd | bestanden met een manueel geverifieerde woordsegmentatie in ShortTextGrid-formaat | /data/annot/text/wrd |
awd | bestanden met een automatische woord- en foneemsegmentatie in ShortTextGrid-formaat | /data/annot/text/awd |
XML-formaten
|
||
bestandstype | omschrijving | directory |
pri | bestanden met orthografische transcripties in XML-formaat | /data/annot/xml/pri |
skp | bestanden met orthografische transcripties en signaalkoppeling in XML-formaat | /data/annot/xml/skp-auto |
/data/annot/xml/skp-ort | ||
/data/annot/xml/skp-wrd | ||
tag | bestanden met part-of-speechtagging, lemmatisering, lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat | /data/annot/xml/tag |
lxk | bestanden met een lexicologische koppeling en indicatie van meerwoordsuitdrukkkingen in XML-formaat | /data/annot/xml/lxk |
tig | bestanden met syntactische annotaties in XML-formaat | /data/annot/xml/tig |
bpt | bestanden met een manueel geverifieerde woordsegmentatie (bpt-fon), of een automatische woordsegmentatie en automatische brede fonetische transcripties met duur van de individuele fonemen (bpt-auto) in XML-formaat | /data/annot/xml/bpt-fon |
/data/annot/xml/bpt-auto | ||
prx | bestanden met prosodische annotaties in XML-formaat | /data/annot/xml/prx1 |
/data/annot/xml/prx2 | ||
lex | lexiconbestanden in XML-formaat | /data/lexicon/xml |
*Bestanden met de extensie .wav bevinden zich op aparte geluids-dvd's. Voor meer informatie, zie het overzicht van geluidsfragmenten.