Schema CGN

Het onderstaande schema van het CGN wordt gebruikt als uitgangspunt voor de cursus: klik op een onderdeel van het schema om daar meer over te leren.

  12.780 Spraakfragmenten
Alle geluidsfragmenten (WAV) van het CGN: spontane (telefoon)gesprekken, (nieuws)uitzendingen, voorgelezen tekst, etc.

Basiscorpus

Alle spraakfragmenten voorzien van:

  Orthografische transcriptie Een woordelijke neerslag in gewone spelling van hetgeen er gezegd is en door welke spreker het gezegd werd.   Automatische fonetische transcriptie Een automatisch gegenereerde klankweergave in fonetisch schrift van hetgeen er gezegd is.   Woordsoortinformatie (POS-tags) De toekenning van lexicale en morfosyntactische kenmerken aan woordvormen in een specifieke context (Part-of-speech).   Lemmata Herleiding van geflecteerde woordvormen tot de basisvormen infinitief en stam.   Lexicologische koppeling Onderlinge verbinding van de onderdelen van meerledige uitdrukkingen.   Automatische woordoplijning De automatische koppeling tussen ieder woord in de orthografische transcriptie en het bijbehorende stukje spraaksignaal.

Kerncorpus

10% spraakfragmenten ook voorzien van:

  Handmatig geverifieerde fonetische transcriptie Een handmatig geverifieerde klankweergave in fonetisch schrift van hetgeen er gezegd is.   Syntactische annotatie Alle afhankelijkheidsrelaties binnen een zin hiĆ«rarchisch in kaart gebracht.   Prosodische annotatie (2,5%) De aanduiding van prominente lettergrepen, prosodische grenzen en abnormale klankverlengingen.   Handmatig geverifieerde woordoplijning De automatische koppeling tussen ieder woord in de orthografische transcriptie en het bijbehorende stukje spraaksignaal handmatig geverifieerd.
  Metadata
Aanvullende informatie over de sprekers en spraakfragmenten.
  Lexicon
Alle unieke woordvormen uit het CGN voorzien van uitgebreide lexicale informatie, onderverdeeld in een eenwoordlexicon en een meerwoordlexicon.
  Frequentielijsten
Frequentiegegevens van de woordvormen, tags en lemmata uit het CGN.