Syntactische Annotatie

Informatie

Met behulp van de syntactische annotatie van het CGN worden de afhankelijkheidsrelaties binnen een zin in kaart gebracht.

Uitgebreide info
Alle zinnen in het corpus zijn automatisch grammaticaal ontleed (zie POS-tagging). Daarvan werd tien procent van de data verrijkt met een syntactische annotatie. Dit houdt in dat alle afhankelijkheidsrelaties binnen een zin hiërarchisch in kaart gebracht zijn (in boomstructuren) en van iedere woordgroep is de relatie bepaald ten opzichte van de overige woordgroepen in die zin. Hier vindt u een lijst van alle gebruikte syntactische tags en het protocol voor de syntactische annotatie.

Zoeken op de syntactische annotatie in Corex
Om op de syntactische annotaties te zoeken, kunt u gebruikmaken van de “Syntax Search” in Corex. U vindt deze in het hoofdmenu van het Corex-openingsvenster onder “Search”. Er opent automatisch een geïntegreerd programma in Corex met de naam TigerSearch. De allereerste keer dat u Tiger gebruikt, is het van belang om het corpus in te laden. Dit doet u door in het hoofdscherm dubbel te klikken op “CGN” (in de Metadata Descriptions Tree) en vervolgens op “add” te klikken bij de “Basket functions”. Het symbool voor “CGN” wordt hierdoor grijs en “List” kleurt rood : u hebt nu de syntactische annotaties toegevoegd aan de lijst van te doorzoeken fragmenten.

Voorbeeldquery’s: In Tiger kunt u zoeken op woorden, categorie, woordsoort en morfologische informatie. Complexere zoekopdrachten zijn in verband met adjacentie, dominantie of grammatische functie en variabelen. In TigerSearch is eveneens een beschrijving van alle tags opgenomen.

[word=”corpus”]
zoeken op het woord “corpus”, dit moet tussen aanhalingstekens
[cat=”SSUB”]
zoeken op de categorie SSUB: bijzin (V-finaal)
[pos=”ADJ10”]
 
zoeken op woordsoort ADJ10: ADJ (vrij, comp)(gemarkeerd door het suffix -er. Bijv. “langer slapen)
[morph=”R401”]
zoeken op een hoofdtelwoord in dialect uitgesproken.(Bijv. TW(hoofd,dial): ene
[word=”een”] . [word=”corpus”]
adjacentie wordt aangeduid door “.”
[cat=”PP”] > [word=”richting”]
 
geeft dominantie aan: richting moet hier prepositioneel gebruikt worden (Bijv. richting Brussel)
#n1 > HD #n2
 
zoeken op alle hoofden (HD) van een zin: constraints, waarden en knopen worden aangeduid door logische variabelen (#n)

Wanneer u bijvoorbeeld geïnteresseerd bent in zinnen met de constructie “om te + infinitief”, voert u in het rechterscherm van Tiger (Textual mode) de string [cat=”OTI”] in. De categorieopties verschijnen automatisch in een menu wanneer u “[cat=” ingetypt heeft. Vervolgens kunt u de gewenste categorie aanklikken en afsluiten met een rechte haak. Wanneer u vervolgens op “Search” klikt, krijgt u de bijbehorende boomstructuren te zien.

Voorbeeld Syntax Search