Frequentielijsten

Frequentielijsten

Voor de data in het corpus zijn tevens enkele frequentielijsten afgeleid, met daarin informatie over de frequentie van voorkomen van woordvormen, tags en lemmata en combinaties hiervan. Ook is er een frequentielijst beschikbaar van woordvormen en hun fonetische transcripties. De frequentielijsten bevinden zich in de directory /data/lexicon/freqlists/ van deze dvd; het betreft hier files met de extensie .frq. Aan de woordvormen kunnen codes zijn verbonden, die de status van de woordvorm nader bepalen. De woordvorm wordt dan gescheiden van de code door een 'slash forward', zoals in wonderful/foreign. De volgende codes kunnen voorkomen:

'dialect' voor dialectwoorden;
'foreign' voor vreemdtalige woorden;
'incomplete' voor afgebroken woorden;
'mispr' voor al dan niet opzettelijke versprekingen;
'regionalpr' voor zwaar dialectisch uitgesproken woorden;
'uncertain' voor moeilijk verstaanbare woorden.

De verschillende typen frequentielijsten zijn de volgende:

totalph

een alfabetische woordfrequentielijst met daarin de frequentie van voorkomen van woordvormen over alle data in deze release, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm;
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

totrank

een woordfrequentielijst als 'rank order list', eveneens over alle data, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm, geordend van hoog- naar laagfrequent;
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

areaalph

een alfabetische woordfrequentielijst waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm;
de totale frequentie van de woordvorm in de Nederlandse data;
de totale frequentie van de woordvorm in de Vlaamse data;
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

arearank

een woordfrequentielijst als 'rank order list' waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm, geordend van hoog- naar laagfrequent;
de totale frequentie van de woordvorm in de Nederlandse data;
de totale frequentie van de woordvorm in de Vlaamse data;
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

typealph

een alfabetische woordfrequentielijst waarbij een uitsplitsing wordt gemaakt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm;
de totale frequentie van de woordvorm per component (component a-o);
(...)
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

nltypealph

een alfabetische woordfrequentielijst met betrekking tot de Nederlandse data waarbij een uitsplitsing wordt gemaakt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm in de Nederlandse data;
de totale frequentie van de woordvorm in de Nederlandse data per component (component a-o);
(...)
de totale frequentie van de woordvorm in de Nederlandse data;
de woordvorm.

vltypealph

een alfabetische woordfrequentielijst met betrekking tot de Vlaamse data waarbij een uitsplitsing wordt gemaakt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm in de Vlaamse data;
de totale frequentie van de woordvorm in de Vlaamse data per component (component a-o);
(...)
de totale frequentie van de woordvorm in de Vlaamse data;
de woordvorm.

typerank

een woordfrequentielijst als 'rank order list' waarbij een onderscheid gemaakt wordt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm, geordend van hoog- naar laagfrequent;
de totale frequentie van de woordvorm per component (component a-o);
(...)
de totale frequentie van de woordvorm in het gehele corpus;
de woordvorm.

nltyperank

een woordfrequentielijst met betrekking tot de Nederlandse data als 'rank order list' waarbij een onderscheid gemaakt wordt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm in de Nederlandse data, geordend van hoog- naar laagfrequent;
de totale frequentie van de woordvorm in de Nederlandse data per component (component a-o);
(...)
de totale frequentie van de woordvorm in de Nederlandse data;
de woordvorm.

vltyperank

een woordfrequentielijst met betrekking tot de Vlaamse data als 'rank order list' waarbij een onderscheid gemaakt wordt naar de 15 componenten die in het corpus worden onderscheiden, met hierin de volgende kolommen:

de rangorde van voorkomen van de woordvorm in de Vlaamse data, geordend van hoog- naar laagfrequent;
de totale frequentie van de woordvorm in de Vlaamse data per component (component a-o);
(...)
de totale frequentie van de woordvorm in de Vlaamse data;
de woordvorm.

tagalph

een alfabetische frequentielijst van POS-tags, gestructureerd als volgt:

[woordsoortfrequentie] [woordsoort]: [tagfrequentie per woordsoort] [tag]

lemalph

een frequentielijst van lemmata met bijbehorende woordvormen en POS-tags, gestructureerd als volgt:

[NL-freq. lemma] [VL-freq. lemma] [tot. freq. lemma] [lemma]: [NL-freq. woordv.-tag] [VL-freq. woordv.-tag] [tot. freq. woordv.-tag] [tag] [woordv.]

fonalph

een frequentielijst van tokens (woordvormen) met bijbehorende fonetische transcripties, gestructureerd als volgt:

[NL-freq. woordv.] [VL-freq. woordv.] [tot. freq. woordv.] [woordv.]: [NL-freq. uitspr.] [VL-freq. uitspr.] [tot. freq. uitspr.] [uitspr.]

Merk op dat deze frequentielijst enkel op dat deel van de data gebaseerd is waarvoor een manueel geverifieerde fonetische transcriptie beschikbaar is.