Frequentielijsten
Voor de data in het corpus zijn
tevens enkele frequentielijsten afgeleid, met daarin informatie over de
frequentie van voorkomen van woordvormen, tags en lemmata en
combinaties hiervan. Ook is er een frequentielijst beschikbaar van
woordvormen en hun fonetische transcripties. De frequentielijsten
bevinden zich in de directory /data/lexicon/freqlists/
van deze dvd;
het betreft hier files met de extensie .frq. Aan de woordvormen kunnen
codes zijn verbonden, die de status van de woordvorm nader bepalen. De
woordvorm wordt dan gescheiden van de code door een 'slash forward',
zoals in wonderful/foreign. De volgende codes kunnen voorkomen:
- 'dialect' voor dialectwoorden;
- 'foreign' voor vreemdtalige
woorden;
- 'incomplete' voor afgebroken
woorden;
- 'mispr' voor al dan niet
opzettelijke versprekingen;
- 'regionalpr' voor zwaar
dialectisch uitgesproken woorden;
- 'uncertain' voor moeilijk
verstaanbare woorden.
De verschillende typen frequentielijsten
zijn de volgende:
- totalph
een alfabetische woordfrequentielijst
met daarin de frequentie van voorkomen van woordvormen over alle data
in deze release, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm;
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- totrank
een woordfrequentielijst als 'rank
order list', eveneens over alle data, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm, geordend van hoog- naar laagfrequent;
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- areaalph
een alfabetische woordfrequentielijst
waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de
Nederlandse data, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm;
- de totale frequentie van de
woordvorm in de Nederlandse data;
- de totale frequentie van de
woordvorm in de Vlaamse data;
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- arearank
een woordfrequentielijst als 'rank
order list' waarbij onderscheid gemaakt wordt tussen de Vlaamse data en
de Nederlandse data, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm, geordend van hoog- naar laagfrequent;
- de totale frequentie van de
woordvorm in de Nederlandse data;
- de totale frequentie van de
woordvorm in de Vlaamse data;
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- typealph
een alfabetische woordfrequentielijst
waarbij een uitsplitsing wordt gemaakt naar de 15 componenten die in
het corpus worden onderscheiden, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm;
- de totale frequentie van de
woordvorm per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in het gehele corpus;
- de woordvorm.
- nltypealph
een alfabetische woordfrequentielijst
met betrekking tot de Nederlandse data waarbij een uitsplitsing wordt
gemaakt naar de 15 componenten die in
het corpus worden onderscheiden, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm in de Nederlandse data;
- de totale frequentie van de
woordvorm in de Nederlandse data per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in de Nederlandse data;
- de woordvorm.
- vltypealph
een alfabetische woordfrequentielijst
met betrekking tot de Vlaamse data waarbij een uitsplitsing wordt
gemaakt naar de 15 componenten die in
het corpus worden onderscheiden, met hierin de volgende kolommen:
- de rangorde van voorkomen van
de woordvorm in de Vlaamse data;
- de totale frequentie van de
woordvorm in de Vlaamse data per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in de Vlaamse data;
- de woordvorm.
- typerank
een woordfrequentielijst als 'rank
order list' waarbij een onderscheid gemaakt wordt naar de 15
componenten die in het corpus worden onderscheiden, met hierin de
volgende kolommen:
- de rangorde van voorkomen van
de woordvorm, geordend van hoog- naar laagfrequent;
- de totale frequentie van de
woordvorm per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in het gehele corpus;
- de woordvorm.
een woordfrequentielijst met
betrekking tot de Nederlandse data als 'rank
order list' waarbij een onderscheid gemaakt wordt naar de 15
componenten die in het corpus worden onderscheiden, met hierin de
volgende kolommen:
- de rangorde van voorkomen van
de woordvorm in de Nederlandse data, geordend van hoog- naar
laagfrequent;
- de totale frequentie van de
woordvorm in de Nederlandse data per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in de Nederlandse data;
- de woordvorm.
een woordfrequentielijst met
betrekking tot de Vlaamse data als 'rank
order list' waarbij een onderscheid gemaakt wordt naar de 15
componenten die in het corpus worden onderscheiden, met hierin de
volgende kolommen:
- de rangorde van voorkomen van
de woordvorm in de Vlaamse data, geordend van hoog- naar laagfrequent;
- de totale frequentie van de
woordvorm in de Vlaamse data per component (component a-o);
- (...)
- de totale
frequentie van de woordvorm in de Vlaamse data;
- de woordvorm.
- tagalph
een alfabetische frequentielijst van
POS-tags, gestructureerd als volgt:
- [woordsoortfrequentie]
[woordsoort]
- [tagfrequentie per
woordsoort] [tag]
- lemalph
een frequentielijst van lemmata met
bijbehorende woordvormen en POS-tags, gestructureerd als volgt:
- [NL-freq.
lemma] [VL-freq. lemma] [tot. freq.
lemma] [lemma]
- [NL-freq.
woordv.-tag] [VL-freq. woordv.-tag]
[tot. freq. woordv.-tag] [tag]
[woordv.]
- fonalph
een frequentielijst van tokens
(woordvormen) met bijbehorende fonetische transcripties, gestructureerd
als volgt:
- [NL-freq.
woordv.] [VL-freq. woordv.] [tot.
freq. woordv.] [woordv.]
- [NL-freq.
uitspr.] [VL-freq. uitspr.] [tot.
freq. uitspr.] [uitspr.]
Merk op dat deze frequentielijst enkel op dat deel van de data
gebaseerd is waarvoor een manueel geverifieerde fonetische transcriptie
beschikbaar is.