Bestanden van het type .plk bevatten een part-of-speechtagging, lemmatisering, lexicologische koppeling en informatie over meerwoordsuitdrukkingen.
Een .plk-bestand kent twee typen regels:
<au> | Een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<mu> | Een mark-upeenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
s | Sprekeridentificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKNOWN" waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
tb | Begintijd (in seconden) van de annotatie-eenheid. De begintijd is afgeleid van het .ort-bestand. Een tijdmarkering kan samenvallen met een zinsgrens, maar dit hoeft niet noodzakelijkerwijs het geval te zijn. Om die reden kan een begintijd wat vroeger zijn dan het feitelijk begin van de zin in het audiobestand. |
kolom1 | Woordvorm zoals die voorkomt in het orthografisch transcript (vgl. data in de .ort-bestanden). |
kolom2 | Part-of-speechtag die aan de woordvorm is toegekend. Voor een overzicht van de gebruikte tags, zie /data/annot/text/plk/tagset.txt. |
kolom3 | Lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma. |
kolom4 | Lexicon-ID van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt). |
kolom5 | Lexicon-ID van het lemma van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt). |
kolom6 | Meerwoordslemma (indien verschillend van kolom3). |
kolom7 | Lexicon-ID van het meerwoordslemma. Het ID verwijst naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt). |
kolom8 | Referenties naar de afzonderlijke delen van de meerwoordsuitdrukking d.m.v. het rangnummer van het woord binnen de zin. |
Een lexicon-ID met waarde "0" betekent dat het lemma of de woordvorm niet lexicologisch gekoppeld is. Wanneer bij een gekoppelde meerwoordsuitdrukking sprake is van ellipsis (weglating van één of meer van de delen), zoals in ik deed (aandoen en uitdoen) het licht aan en uit, dan worden de bij de woordvorm deed horende lemmata gescheiden door een schuine streep "/", evenals de bijbehorende lexicon-ID's in de kolom ernaast. Wanneer een lemma of woordvorm meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "|".