This language resource contains training and testing data for genre classification for Afrikaans. The available classes are: fictional text (drama, prose and poetry) and non-fictional text (neutral, subjective and objective). Productdetails Annotaties UTF8, Running text Dataformaat txt Documentatie Snyman, D., van Huyssteen, G. B., & Daelemans, W. 2012. … [Lees meer...] overAfrikaans Genre Classification Corpus
Productpagina
Afrikaans Custom Dictionary for Government Domain
This custom dictionary was developed in a spelling checker project for the Department of Arts and Culture and it contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of the language. Productdetails Annotaties Alphabetic list, one word(token) per line, Text, ANSI … [Lees meer...] overAfrikaans Custom Dictionary for Government Domain
Middelnederlandsch Woordenboek (MNW)
Het Middelnederlandsch Woordenboek van Verwijs en Verdam (hierna: MNW) beschrijft de middeleeuwse Nederlandse woordenschat uit de periode ca. 1250 tot ca. 1550. Het woordenboek bevat 60.000 trefwoorden (exclusief 14.000 verwijslemmata) en telt negen delen, waarvan het eerste in 1885 verscheen, het laatste in 1929. Ondanks zijn respectabele leeftijd, is het woordenboek nog … [Lees meer...] overMiddelnederlandsch Woordenboek (MNW)
Memory-Based Morphological Parser (MBMP)
MBMP is een geheugengebaseerde morfologische parser voor de programmeertaal Python (http://www.python.org). De parser biedt de mogelijkheid om woorden te voorzien van een morfologische analyse. Dat kan de onderverdeling van een woord in morfemen zijn, de toekenning van POS-tags aan de morfemen van een woord of complete hiërarchische analyses. Daarnaast biedt het pakket de … [Lees meer...] overMemory-Based Morphological Parser (MBMP)
CoBaLT
CoBaLT is een applicatie om een verzameling tekstbestanden in te laden om vervolgens de tokens taalkundig te annoteren (o.a. lemmatiseren). Het annoteren met CoBaLT levert twee producten op: een geannoteerd corpus en een lexicon bestaande uit de geannoteerde woordvormen. Deze applicatie wordt gedistribueerd via GitHub. Â CoBaLT is an application in which a corpus of texts can … [Lees meer...] overCoBaLT