In het bestand recordings.xls is informatie beschikbaar met betrekking tot de fragmenten die deel uitmaken van het corpus.
De informatie in de opeenvolgende kolommen in het bestand is de volgende:
recordingID
de unieke code waarmee het fragment
wordt aangeduid: fnNNNNNN of fvNNNNNN, bv. fn000110 / fv4000028. Voor
alle fragmenten die uit Nederland afkomstig zijn, begint de
fragmentcode
met de letters fn; voor de Vlaamse fragmenten zijn dit de letters fv.
aXtype
specificeert het type headerinformatie:
TEXT
creator
specificeert wie verantwoordelijk was
voor deze headerinfo: CLS-KUN (voor de Nederlandse data) of ELIS-UG
(voor de Vlaamse data)
version
de huidige versie van de headerinfo:
HEADER.version1.0
aXupdate
datum waarop de header voor het laatst
werd geactualiseerd
info
informatie met betrekking tot de aard
van het fragment; bv. spontaneous conversations (face-to-face),
television programme: Studio Sport, ceremonious speech: opening of the
academic year
respType
soort taak/transcriptie/annotatie:
SAMPLING
respName
groep die verantwoordelijk was voor de
taak/transcriptie/annotatie in de voorafgaande kolom: SPEX, CNTS-UA,
ELIS-UG, of ESAT-KUL
respType
soort transcriptie/annotatie:
ORTHOGRAPHIC TRANSCRIPTION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: SPEX, CNTS-UA,
ELIS-UG, of ESAT-KUL
respType
soort transcriptie/annotatie:
PART-OF-SPEECH TAGGING
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie:
LEMMATISATION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie: LEXICON
LINK-UP
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie: WORD
SEGMENTATION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: CLS-KUN, ELIS-UG, of
ESAT-KUL
respType
soort transcriptie/annotatie: PHONETIC
TRANSCRIPTION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: SPEX of CNTS-UA
respType
soort transcriptie/annotatie: SYNTACTIC
ANNOTATION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: OTS of CCL-KUL
respType
soort transcriptie/annotatie: PROSODIC
ANNOTATION
respName
groep die verantwoordelijk was voor de
transcriptie/annotatie in de voorafgaande kolom: UvT/RUL of
CNTS-UA/ELIS-UG
wordCount
aantal woorden in het fragment
secCount
duur van het fragment in totaal aantal
seconden
byteCount
aanduiding van de omvang van de
.wav-file (uitgedrukt in aantal eenheden gespecificeerd in volgende
kolom): getal
unit
MB
extNote
opmerkingen m.b.t. het fragment
wph
gemiddeld aantal woorden per uur
distributor
organisatie verantwoordelijk voor de
distributie: INL/TST-centrale
WAV-DVD
label van de dvd waarop de
desbetreffende geluidsfile zich bevindt; bv. CGN_WAV_01
author
auteur van het boek waaruit werd
voorgelezen: voornaam/letters, achternaam
biblStringXtitle
titel van het boek
pubName
uitgever
pubPlace
plaats van uitgave
pubDate
jaar van uitgave
rexXdate
opnamejaar
time
opnametijd (optioneel)
source
aanduiding van de bron : bv. national
television, Draadomroep, library for the blind, etc.
producer
producer van de opname: CGN, VNC, Corpus
van der Wijst, ANP Radio, etc.
target
geeft informatie over 4 aspecten:
teksttype (text type), mate van voorbereidheid (degree of
preparedness), modus
(mode), en domein (domain);
text type: specificeert de
component waartoe een fragment behoort; er werden 15 teksttypes
onderscheiden; tta-tto (zie de lijst hieronder);
degree of preparedness: prep1 =
voorbereid, prep2 = niet voorbereid, prep3 = min of meer voorbereid;
mode: mod1 = uitgezonden, radio;
mod2 = uitgezonden, tv; mod3 = niet uitgezonden;
domain:
dom1 = privé; dom2= publiek.
term
een of meer trefwoorden die een nadere
aanduiding geven van het onderwerp/de onderwerpen die in het fragment
aan de orde komen
speakerIDs
de sprekercode(s) van de spreker(s) die
in het fragment voorkomen: Nxxxxx / Vxxxxx, bv. N00023 / V00023 (N
duidt steeds een uit Nederland afkomstige spreker aan; V wordt gebruikt
om Vlaamse sprekers aan te duiden)
role
rol(len) van de spreker(s) in het
fragment: bv. interviewer, interviewee, chairman, contact,
interlocutor, lecturer, news-reader, reporter, teacher, pupil, etc. NB:
In de metadatagegevens voor de Nederlandse fragmenten in de componenten
(teksttypes) tta, ttc en ttd werd de informatie m.b.t. de rol van de
spreker verwisseld met de informatie aangaande de relatie tussen
sprekers (zie ook onder relationXactive).
age
leeftijdsklasse van de spreker ten tijde
van de opname; age0 = jonger dan 18 jaar; age1 = 18-24 jaar; age2 =
25-34 jaar; age3 = 35-44 jaar; age4 = 45-55 jaar; age5 = ouder dan 55
jaar; ageX = leeftijd onbekend
interactionXtype
mate van interactie tussen sprekers; it1
= geen interactie; it2 = enige interactie; it3 = volledige interactie;
it4 = niet van toepassing
interactionXactive
aantal actieve sprekers
interactionXpassive
zijn er passieve sprekers aanwezig; ja
(yes), nee (no), onbekend (unknown), info niet beschikbaar (not used)
relationXactive
relatie waarin de sprekers in een
fragment tot elkaar staan. Er worden twee categorieën
onderscheiden: familierelaties en sociale relaties. De volgende
familierelaties worden aangeduid: FAM: couple, FAM: parent, FAM:
siblings, FAM: in-laws, FAM: other. De sociale relatie die worden
aangeduid zijn: SOC: friends, SOC: acquaintances, SOC: neighbours, en
SOC: colleagues.
relationXpassive
relatie waarin passieve sprekers tot
elkaar staan
aXdesc
beschrijving van de rol van de passieve
sprekers; niet gebruikt (not used)
mutual
relatie waarin actieve en passieve
sprekers tot elkaar staan; niet gebruikt (not used)
locName
plaats waar de opname werd gemaakt; de
plaats werd gerepresenteerd d.m.v. de eerste drie cijfers van de
postcode; wanneer de plaats onbekend of niet nader aangeduid was, werd
hier de aanduiding unknown of unspecified gebruikt.
locale
bechrijving van het soort ruimte waarin
de opname werd gemaakt: loc1 = ruimte van gemiddelde grootte; loc2 =
open lucht; loc3 =openbare ruimte; loc4 = grote ruimte, unspecified =
niet nader gespecificeerd
activity
soort activiteit die werd uitgevoerd ten
tijde van de opname
recMediumXtype
opnamemedium: MiniDisk, DAT-tape,
CAS-tape, cd-rom, computer, video, audi-cd, niet nader gespecificeerd
(unspecified)
microphoneXtype
type microfoon dat werd gebruikt: bv.
ECM-MS907
micDistanceXperson
afstand tot de microfoon (in aantal
centimeters)
dist
afstand tussen sprekers
cm
maat waarin afstand werd uitgedrukt
noise
aanduiding van achtergrondgeluid
recording
aard van de opname: analoog (DIG1),
digital (DIG2) of ongespecificeerd (unspecified)
processing
processing van de opname: DIG1, DIG2,
unspecified
status
finale status van de opname: DIG2
De laatste kolommen in de tabel zijn bedoeld voor het aanduiden van de wijzigingen (welke wijziging en door wie) die werden aangebracht. Voor elk type transcriptie/annotatie zijn daartoe 3 kolommen gereserveerd. Dit zijn:
revDate
datum waarop de wijziging werd
aangebracht
revType
type transcriptie/annotatie dat werd
gewijzigd: sampling, orthographic transcription, POS tagging,
lemmatisation, lexicon link-up, word segmentation, phonetic
transcription, syntactic annotation, prosodic annotation
revName
naam van de persoon/groep die
verantwoordelijk was voor de wijziging
NB: In de toekomst is er
wellicht behoefte aan een vierde kolom, nl. die waarin wordt
aangeduid waaruit de wijziging precies bestond:
revChange
omschrijving van de wijziging die werd
aangebracht
Teksttypes (vgl. componenten in het corpusdesign):
tta Spontane conversaties
('face-to-face')
ttb Interviews met leraren Nederlands
ttc Telefoondialogen opgenomen m.b.v.
platform
ttd Telefoondialogen opgenomen m.b.v.
minidiskrecorder
tte Zakelijke onderhandelingen
ttf Interviews en discussies uitgezonden
op radio en televisie
ttg Discussies, debatten, vergadering
(m.n. politieke)
tth Lessen
tti Spontane commentaren (o.a. sport)
uitgezonden op radio en televisie
ttj Actualiteitenrubrieken en reportages
uitgezonden op radio en televisie
ttk Nieuwsbulletins uitgezonden op radio
en televisie
ttl Beschouwingen en commentaren
uitgezonden op radio en televisie
ttm Missen, lezingen, plechtige
toespraken
ttn Colleges, voordrachten, lezingen
tto Voorgelezen teksten