Woordsoortinformatie : POS-tags en lemmata

Informatie

Ieder woord in het Corpus Gesproken Nederlands werd voorzien van een lemma en van gedetailleerde woordsoortinformatie.

Uitgebreide info
Ieder afzonderlijk woord in het corpus is verrijkt met gedetailleerde woordsoortinformatie, de zogenoemde part-of-speechtags (POS-tags). De tagging betreft de toekenning van lexicale en morfosyntactische kenmerken aan woordvormen in een specifieke context. Dit is gedaan met behulp van een automatische tagger. De automatisch toegekende woordsoorten zijn vervolgens handmatig geverifieerd.

De zin “Een onderzoek naar gesproken Nederlands” is bijvoorbeeld als volgt getagd:

 Een
 onderzoek
 naar
 gesproken
 Nederlands
 LID(onbep, stan, agr)
 N(soort, ev, basis, onz, stan)
 VZ(init)
 WW(vd, prenom, zonder)
 N(eigen, ev, basis, onz, stan)

Een lijst van alle tags is hier beschikbaar. Meer gedetailleerde informatie over de tags vindt u in het protocol .

 

Naast de woordsoortinformatie is voor iedere woordvorm lemma-informatie beschikbaar. De lemmatisering betreft de herleiding van geflecteerde woordvormen tot een basisvorm; in het geval van de werkwoorden is dat de infinitief, in het geval van de andere woordsoorten de stam. De woordvorm “gesproken” heeft dus het lemma “spreken” en “stopwoord” is het lemma dat hoort bij de vorm “stopwoordjes”. Meer informatie over lemmatisering is opgenomen in het protocol over part-of-speechtagging.

Zoeken op woordsoortinformatie in Corex
Om op informatie over woordsoorten te zoeken, kunt u gebruikmaken van de “Content Search” in Corex. U vindt deze in het hoofdmenu van het Corex-openingsvenster onder “Search”. Let op dat de annotatielaag “part of speech” of “lemma” geselecteerd staat, afhankelijk van uw zoekactie. Zoeken op een bepaald lemma doet u door het lemma in het scherm in te voeren.

Voorbeeld Corex Search : Woordsoortinformatie

Wanneer u de annotatielaag “part of speech” kiest, krijgt u de mogelijkheid om uit een lijst met woordsoorten te kiezen. Als u bijvoorbeeld geïnteresseerd bent in alle persoonsvormen die er in het CGN voorkomen, klikt u op de woordsoort “WW”. In het menu direct naast de woordsoort, heeft u de mogelijkheid de eigenschappen van het werkwoord verder te specificeren. De asterisk (*) wordt standaard weergegeven in het menu en wil zeggen dat er op alle mogelijke vormen van de woordsoort gezocht wordt. Aangezien u alleen op zoek bent naar de persoonsvorm, moet u hiervoor verder specificeren. Er bestaat echter geen unieke tag voor alle persoonsvormen. Kies daarom een willekeurige tag waarin de persoonsvorm opgenomen is “WW(pv,…)” en klik vervolgens met de rechtermuisknop in het vakje met die tag. Nu moet u de cursor in dat vakje plaatsen net na “pv” en op “delete” drukken. Daardoor wordt het laatste deel van de tag verwijderd en kunt u alleen op de persoonsvorm zoeken.