Online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat. Het SoNaR-corpus is ook als download beschikbaar. Zie de productpagina SoNaR-Corpus. Vanwege auteursrechten is dit corpus enkel toegankelijk met een CLARIN-login. Online search engine for the SoNaR Corpus, a text collection of … [Lees meer...] overOpenSoNaR (Online)
Niet-commercieel
Greedy Extraction of Trees for Empirical Linguistics – GrETEL 4 (Online)
GrETEL is een gebruiksvriendelijke interface voor het doorzoeken van syntactisch geannoteerde corpora ofwel treebanks. Deze applicatie is alleen toegankelijk met een CLARIN-account. GrETEL is a user-friendly search engine for the exploitation of syntactically annotated corpora or treebanks. This application is only accessible with a CLARIN account. Ga naar … [Lees meer...] overGreedy Extraction of Trees for Empirical Linguistics – GrETEL 4 (Online)
Diachroon seMantisch lexicon van de Nederlandse Taal – DiaMaNT (Online)
DiaMaNT (Diachroon seMantisch lexicon van de Nederlandse Taal) is een computationeel semantisch lexicon dat diachrone semantische informatie biedt. Het is gebouwd als laag bovenop GiGaNT, door betekenisinformatie toe te voegen. Het lexicon legt relaties tussen woordvormen en betekeniseenheden (concepten), en plaatst deze in de tijd. DiaMaNT (Diachroon seMantisch lexicon van … [Lees meer...] overDiachroon seMantisch lexicon van de Nederlandse Taal – DiaMaNT (Online)
NAMES Corpus
Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van … [Lees meer...] overNAMES Corpus
CHN N-grams
N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten tijdschriften, journaaluitzendingen en juridisch materiaal. CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende … [Lees meer...] overCHN N-grams