Naam | |
---|---|
4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online) |
De termenbank 4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) bevat begrippen, afkortingen en namen van instanties uit de financieel-economische wereld.
![]() |
Afrikaans Custom Dictionary for Government Domain |
This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of the language.
|
Afrikaans Genre Classification Corpus |
This language resource contains training and testing data for genre classification for Afrikaans.
|
AI-Trainingset - Tag de Tekst voor Named Entity Recognition (NER) |
Handmatig getagde historische documenten die gebruikt kunnen worden om systemen voor 'Named Entity Recognition' te trainen.
![]() |
Algemeen Nederlands Woordenboek (ANW) |
Een corpusgebaseerd, elektronisch woordenboek van het eigentijdse Nederlands in Nederland, Vlaanderen, Suriname en het Caraïbisch gebied. ![]() A corpus-based electronic dictionary describing the contemporary Dutch language as used in the Netherlands, Flanders, Suriname and the Caribbean. |
Algemene Nederlandse Spraakkunst - e-ANS (Online) |
De ANS wil een zo volledig mogelijke beschrijving geven van de grammaticale aspecten van het hedendaagse Standaardnederlands (in zijn geografische en stilistische verscheidenheid), en is bedoeld is voor een breed publiek van grammaticaal geïnteresseerden en dus niet uitsluitend – en ook niet in de eerste plaats – voor gespecialiseerde taalkundigen.
![]() |
Annotated Corpora for Term Extraction Research (ACTER) |
ACTER is een handmatig geannoteerde dataset voor termextractie, die drie talen omvat (Engels, Frans en Nederlands), en vier domeinen (corruptie, dressuur, hartfalen en windenergie).
![]() |
Attestation Tool |
Multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging. Deze tool wordt gedistribueerd via GitHub.
|
AUTONOMATA-namencorpus |
Een database van in totaal circa 5000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden.
![]() |
AUTONOMATA-namencorpus Commercieel |
Een database van in totaal circa 5000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden.
![]() |
AUTONOMATA-POI-corpus |
Het corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc.
![]() |
AUTONOMATA-POI-demo |
Een demo van een spraakherkenner voor POI's (points of interest). Deze demo herkent overnachtingsadressen en eetgelegenheden in enkele grote steden (o.a. Amsterdam, Antwerpen, Gent, Rotterdam).
![]() |
AUTONOMATA-transcriptietoolset |
De AUTONOMATA-transcriptietoolset bestaat uit een transcriptietool en learning tools, waarmee men woordenlijsten kan verrijken met nauwkeurige uitspraakinformatie.
![]() |
AutoSearch |
Een tool om geannoteerde teksten te uploaden (voorzien van lemma's en woordsoortinformatie in TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken. Alleen toegankelijk met een CLARIN-account.
|
Autshumato Afrikaans-English Translation Memory |
Translation memory from Afrikaans to English (EN-GB), in the government domain for use in the Autshumato ITE application. |
Autshumato English-Afrikaans Parallel Corpora |
English and Afrikaans parallel corpora aligned on sentence level. |
Autshumato English-Afrikaans Translation Memory |
Translation memory from English (EN-GB) to Afrikaans, in the government domain for use in the Autshumato ITE application. |
Autshumato English-isiZulu Parallel Corpora |
English and isiZulu parallel corpora aligned on sentence level. |
Autshumato English-isiZulu Translation Memory |
Translation memory from English (EN-GB) to isiZulu, in the government domain for use in the Autshumato ITE application. |
Autshumato English-Sesotho sa Leboa Parallel Corpora |
English and Sesotho sa Leboa (Sepedi) parallel corpora aligned on sentence level. |
Autshumato isiZulu-English Translation Memory |
Translation memory from IsiZulu to English (EN-GB), in the government domain for use in the Autshumato ITE application. |
Autshumato Sesotho sa Leboa-English Translation Memory |
Translation memory from Sesotho sa Leboa to English (EN-GB), in the government domain for use in the Autshumato ITE application. |
BasiLex-corpus |
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.
![]() |
BasiLex-corpus Commercieel |
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.
![]() |
BasiLex-lexicon |
Het BasiLex-lexicon bevat alle lemma's uit het BasiLex-corpus met daaraan toegevoegd extra informatie.
![]() |
BasiLex-lexicon Commercieel |
Het BasiLex-lexicon bevat alle lemma's uit het BasiLex-corpus met daaraan toegevoegd extra informatie.
![]() |
BasiScript-corpus |
Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd.
![]() |
BasiScript-corpus Commercieel |
Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd.
![]() |
BasiScript-lexicon |
Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Het BasiScript-lexicon is afgeleid van dat corpus.
![]() |
BasiScript-lexicon Commercieel |
Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Het BasiScript-lexicon is afgeleid van dat corpus.
![]() |
Belgian Covid Sign Language Corpus (BeCoS Corpus) |
Een geannoteerd parallel corpus gesproken taal (Nederlands, Frans, Duits) en gebarentaal (VGT, LSFB) gebaseerd op uitgezonden nieuwsberichten van de Belgische federale overheid betreffende COVID-19.
![]() |
BlackLab |
Corpuszoeksysteem op basis van Apache Lucene. Deze tool wordt gedistribueerd via GitHub.
|
BlackLab Frontend |
Een uitgebreide interface voor de BlackLab-corpuszoekmachine.
|
BLISS Dialogue Summaries |
Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.
![]() |
BLISS Spoken Dialogue Dataset |
Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem (v1) over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.
![]() |
Boarnsterhim Corpus (BHC) |
Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata.
![]() |
Brieven als Buit - Gouden Standaard |
De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal. |
Brieven als Buit (Online) |
Een selectie van ongeveer 1.000 privébrieven uit de late zeventiende tot de late achttiende eeuw werd getokeniseerd, gelemmatiseerd en voorzien van een POS-tag. De taalkundige verrijkingen werden manueel gecontroleerd.
![]() |
Brieven als Buit-2 (Online) |
Dit corpus is een aanvulling op het Brieven als Buit-corpus
![]() |
Cd-rom Middelnederlands |
De Cd-rom Middelnederlands (1998) bevat het Middelnederlands Woordenboek, de teksten van het Corpus Gysseling en een collectie van ruim 300 rijm- en prozateksten.
|
CELEX-2 Dutch |
CELEX-2 Dutch is een Nederlands lexicon met uitgebreide orthografische, fonologische, morfologische en syntactische informatie en frequentiegegevens.
![]() |
CGN-annotaties |
De CGN-annotaties bevatten het volledig geannoteerde corpus in getranscribeerde vorm.
![]() |
CGN-annotaties Commercieel |
De CGN-annotaties bevatten het volledig geannoteerde corpus in getranscribeerde vorm.
![]() |
Children's Oral Reading Corpus (CHOREC) |
Een verzameling van 130 uur voorgelezen kinderspraak.
![]() |
CHN N-grams |
N-grammen (lengten één, twee en drie) met frequenties uit het Corpus Hedendaags Nederlands.
|
CHN N-grams Commercieel |
N-grammen (lengten één, twee en drie) met frequenties uit het Corpus Hedendaags Nederlands.
|
CoBaLT |
Applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren. Deze applicatie wordt gedistribueerd via GitHub.
|
CombiLex |
CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie.
![]() |
CombiLex Commercieel |
CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie.
![]() |
COREA-coreferentiecorpus |
Het corpus bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn.
![]() |
COREA-coreferentiecorpus Commercieel |
Het corpus bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn.
![]() |
Cornetto-LMF |
Lexicale database voor het Nederlands met semantische relaties en combinatorische informatie. Alleen toegankelijk met een CLARIN-account.
![]() |
Corpus Gesproken Nederlands (CGN) |
Een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders.
![]() |
Corpus Gesproken Nederlands (CGN) Commercieel |
Een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders.
![]() |
Corpus Gysseling (Data) |
Een verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek.
|
Corpus Gysseling (Online) |
Corpus van Middelnederlandse teksten (tot en met het jaar 1300), uitgegeven in de periode 1977-1987 door de taalkundige Maurits Gysseling.
![]() |
Corpus Hedendaags Nederlands - CHN (Online) |
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit kranten, boeken, blogs, tijdschriften,... uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden.
![]() |
Corpus Juridisch Nederlands (Online) |
Het Corpus Juridisch Nederlands omvat een verzameling van 5.856 wetsteksten uit de periode 1814 tot 1989, die per jaar zijn samengevoegd.
The Corpus Juridisch Nederlands comprises a collection of 5,856 legal texts from the period 1814 to 1989, compiled year by year.
|
Corpus Middelnederlands (Data) |
Een verzameling van ca. 350 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands).
![]() |
Corpus Middelnederlands (Online) |
Het Corpus Middelnederlands is een verzameling van 336 Middelnederlandse literaire teksten uit de periode 1250-1500. De teksten zijn doorzoekbaar via een webapplicatie.
![]() |
Corpus Nederlandse Gebarentaal (CNGT) |
Dit product is nog niet beschikbaar. This product is not yet available. Productdetails Dataformaat Jaar Opdrachtgever Project Refereren Corpus Nederlandse Gebarentaal (Version 1.0) (202?) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-u5 Talen Vlaamse Gebarentaal Toepassing Versie 1.0 Downloaddetails
|
Corpus Ondertitelde UvN-colleges (COUC) |
Dit corpus bevat 57 ondertitelde colleges van de Universiteit van Nederland (UVN). De ondertitels zijn een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames.
![]() |
Corpus Oudnederlands (Online) |
Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200.
![]() |
Corpus Pathologische en Normale Spraak (COPAS) |
Een verzameling opnames van bijna 200 sprekers met een hoorbare spraakstoornis en van 122 controlesprekers.
![]() |
Corpus Vlaamse Gebarentaal (Corpus VGT) |
Het Corpus VGT is een verzameling van gannoteerde video’s in Vlaamse Gebarentaal. Informanten (sprekers VGT) spreken twee aan twee over een reeks thema’s.
![]() |
Corpus Vlaamse Gebarentaal (CVGT) |
Dit product is nog niet beschikbaar. This product is not yet available. Productdetails Dataformaat Jaar Opdrachtgever Project Refereren Corpus Vlaamse Gebarentaal (Version 1.0) (202?) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-u4 Talen Vlaamse Gebarentaal Toepassing Versie 1.0 Downloaddetails
|
Couranten Corpus (Online) |
Het Couranten Corpus bevat dertien zeventiende-eeuwse Nederlandse kranten uit de periode 1619-1700 die momenteel op Delpher.nl beschikbaar zijn.
![]() |
D-TUNA-corpus |
Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies.
![]() |
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank |
Een parallelle monolinguale treebank voor het Nederlands.
![]() |
DAESO-corpus: parallelle Nederlandstalige monolinguale treebank Commercieel |
Een parallelle monolinguale treebank voor het Nederlands.
![]() |
Database van de Zuidelijk-Nederlandse Dialecten - DSDD (Online) |
De database van de Zuidelijk-Nederlandse dialecten is samengesteld uit drie regionale dialectwoordenboeken: het Woordenboek van de Vlaamse Dialecten (WVD), het Woordenboek van de Brabantse Dialecten (WBD) en het Woordenboek van de Limburgse Dialecten. ![]() The Database of the Southern Dutch Dialects (DSDD) is an aggregation of three regional dialect dictionaries: the Dictionary of Flemish Dialects (Woordenboek van de Vlaamse Dialecten - WVD), the Dictionary of the Brabantian Dialects (Woordenboek van de Brabantse Dialecten - WBD), and the Dictionary of the Limburgian Dialects (Woordenboek van de Limburgse Dialecten - WLD). |
Dataset containing hypothetical manner clauses in English and Dutch |
Deze dataset bevat informatie over het gebruik van bijzinnen die worden ingeleid door het voegwoord 'as if' in de hedendaagse Britse spraak en van bijzinnen die worden ingeleid door het voegwoord 'alsof' in de hedendaagse Nederlandse spraak.
![]() |
Dataset Synthetische Simplificatie |
De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de vereenvoudigde versie daarvan.
![]() |
Diachroon seMantisch lexicon van de Nederlandse Taal - DiaMaNT (Online) |
Een interface voor het doorzoeken van het Diachroon seMantisch lexicon van de Nederlandse Taal (DiaMaNT). Dat is een computationeel semantisch lexicon waarin (historische) woordvormen en concepten zijn verbonden.
![]() |
DuELME |
Een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies.
|
DuELME Commercieel |
Een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies.
|
DuOMAn Subjectivity Lexicon |
Een verzameling van ongeveer 9000 woorden waarvoor aangegeven werd of ze een negatieve, neutrale of positieve gevoelswaarde hebben.
![]() |
DuOMAn Subjectivity Lexicon Commercieel |
Een verzameling van ongeveer 9000 woorden waarvoor aangegeven werd of ze een negatieve, neutrale of positieve gevoelswaarde hebben.
![]() |
Dupira |
Parser voor het Nederlands voor toepassingen in information retrieval.
![]() |
Dutch Idiom Database: Native Speakers (DID-NS) |
Een database met beoordelingen van Nederlandse uitdrukkingen door moedertaalsprekers.
![]() |
Dutch Idiom Database: Native Speakers (DID-NS) Commercieel |
Een database met beoordelingen van Nederlandse uitdrukkingen door moedertaalsprekers.
![]() |
Dutch Parallel Corpus (DPC) |
Een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans.
![]() |
Dutch Parallel Corpus (DPC) Commercieel |
Een parallel corpus van 8,77 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans.
![]() |
e-Lex |
Lexicon met ruim 200.000 lemma's en ruim 640.000 woordvormen voorzien van o.a. POS-tag, complementatiepatroon, semantisch type en uitspraakinformatie.
|
e-Lex Commercieel |
Lexicon met ruim 200.000 lemma's en ruim 640.000 woordvormen voorzien van o.a. POS-tag, complementatiepatroon, semantisch type en uitspraakinformatie.
|
Eindhoven Corpus |
Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976.
![]() |
Etymologiebank |
De Etymologiebank biedt alle belangrijke etymologische publicaties van het Nederlands op woordniveau aan op één centraal punt (data geleverd door het INT).
|
Etymologisch Woordenboek van het Nederlands (EWN) |
Een wetenschappelijk etymologisch woordenboek voor het moderne bovenregionale Nederlands.
|
Federated Search Lexica (Online) |
Een interface voor het gelijktijdig doorzoeken van een aantal lexica.
![]() |
Frequentielijsten corpora |
De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus.
|
Frequentielijsten corpora Commercieel |
De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus.
|
Frog |
Een tokenizer, tagger, lemmatizer, morphological segmenter, shallow parser, named entity recognizer, en dependency parser in één. |
Gekaapte Brieven (Online) |
Transcripties van 5862 brieven en andere documenten aan en van zeelieden en anderen uit de 17e en 18e eeuw, voorzien van metadata.
![]() |
GiGaNT-Molex |
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaagse corpusteksten van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling.
|
GiGaNT-Molex Commercieel |
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaagse corpusteksten van het INT. Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling.
|
Gold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign) |
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door oorspronkelijke VGT sprekers voor een VGT publiek.
![]() |
Greedy Extraction of Trees for Empirical Linguistics - GrETEL (Online) |
Een gebruiksvriendelijke interface voor het doorzoeken van syntactisch geannoteerde corpora of treebanks.
![]() |
Hoger Onderwijs Terminologie in Nederland en Vlaanderen (HOTNeV) |
Een terminologische database met Nederlandse en Vlaamse onderwijstermen.
![]() |
Hotel Review Corpus in Nederlandse Gebarentaal (NGT_HoReCo) |
Een multimodaal parallel corpus met de talen Nederlands en Nederlandse Gebarentaal (NGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers.
![]() |
Hotel Review Corpus in Spanish Sign Language (LSE_HoReCo) |
Een multimodaal parallel corpus met de talen Spaans en Spaanse Gebarentaal (Lengua de Signos Española - LSE). 283 geschreven hotelbeoordelingen, oorspronkelijk in het Nederlands werden vertaald in het Spaans en vervolgens door 6 professionele, dove vertalers in het LSE.
![]() |
Hotel Review Corpus in Vlaamse Gebarentaal (VGT_HoReCo) |
Een multimodaal parallel corpus met de talen Nederlands en Vlaamse Gebarentaal (VGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers. Elke beoordeling is vertaald door slechts 1 vertaler. Het aantal woorden in de beoordelingen varieerde tussen 15 en 400. De duur van de VGT-video's varieerde tussen 10 seconden tot ongeveer 4 minuten. Het resulterende corpus bevat 21.825 woorden in het Nederlands en ongeveer 4 uur aan VGT-videomateriaal.
![]() |
Hulk / Keurmerk Spelling |
HulK / Keurmerk Spelling: keurmerk voor producten die de regels en principes van de officiële spelling van de Taalunie volgen.
|
IFA Corpus |
Een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk.
![]() |
IFA Dialogue Video corpus |
Video- en geluidsopnamen van spontane dialogen tussen proefpersonen.
![]() |
INT Historische Woordenlijst |
Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.
|
INT IMPACT NE-lexicon |
Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945.
|
isiNdebele Custom Dictionary for Government Domain |
This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiNdebele. |
isiNdebele Genre Classification Corpus |
Contains training and testing data for genre classification for isiNdebele. |
isiXhosa Custom Dictionary for Government Domain |
This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiXhosa. |
isiXhosa Genre Classification Corpus |
Contains training and testing data for genre classification for isiXhosa. |
isiZulu Custom Dictionary for Government Domain |
This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiZulu. |
isiZulu Genre Classification Corpus |
Contains training and testing data for genre classification for isiZulu. |
JASMIN-spraakcorpus |
Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen.
![]() |
JASMIN-spraakcorpus Commercieel |
Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen.
![]() |
Lassy Groot-corpus |
Een corpus bestaande uit circa 700 miljoen woorden dat automatisch voorzien werd van syntactische annotaties.
![]() |
Lassy Groot-corpus Commercieel |
Een corpus bestaande uit circa 476 miljoen woorden dat automatisch voorzien werd van syntactische annotaties.
![]() |
Lassy Klein-corpus |
Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties.
![]() |
Lassy Klein-corpus Commercieel |
Een syntactisch geannoteerd corpus bestaande uit 772.000 woorden.
![]() |
Lwazi Afrikaans ASR Corpus |
Audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Afrikaans Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Afrikaans. |
Lwazi English ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi English Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in English. |
Lwazi isiNdebele ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi isiNdebele Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in isiNdebele. |
Lwazi isiXhosa ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi isiXhosa Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in isiXhosa. |
Lwazi isiZulu ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi isiZulu Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in isiZulu. |
Lwazi Sepedi ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Sepedi Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Sepedi. |
Lwazi Sesotho ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Sesotho Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Sesotho. |
Lwazi Setswana ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Setswana Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Setswana. |
Lwazi Siswati ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Siswati Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Siswati. |
Lwazi Tshivenda ASR corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Tshivenda Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Tshivenda. |
Lwazi Xitsonga ASR Corpus |
Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. |
Lwazi Xitsonga Pronunciation Dictionary |
General phonemic pronunciations for frequently occurring words in Xitsonga. |
Medische Pilot (MedPilot) |
De Medische Pilot is een bij wijze van experiment ingerichte database waarin een klein deel van de medische woordschat beschreven wordt op verschillende niveaus, van wetenschappelijk tot toegankelijk voor laaggeletterden, en waarin ook verschillen tussen Vlaamse en Nederlandse termen worden getoond.
![]() |
Medische Termen Belgisch-Nederlands (MedTermBN) |
Een lijst met medische begrippen waarvoor in België en Nederland afwijkende termen worden gebruikt.
|
Medische Termen Belgisch-Nederlands (MedTermBN) Commercieel |
Een lijst met medische begrippen waarvoor in België en Nederland afwijkende termen worden gebruikt.
|
Meertalige Ondertiteldata 2BDutch |
De ondertiteldata behorend bij de Nederlandstalige video’s op de website www.2BDutch.nl, vormen het product Meertalige Ondertiteldata 2BDutch.
![]() |
Memory-Based Morphological Parser (MBMP) |
Een geheugengebaseerde morfologische parser voor de programmeertaal Python. Deze tool wordt gedistribueerd via GitHub.
|
Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing |
Dit taalmateriaal bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen.
![]() |
META-Covid Ontology 1.0 |
De META-COVID Ontology verbindt 30 interdiciplenaire COVID onderwerpen met 203 specifieke concepten vanuit wetenschappelijke ontologieën.
![]() |
Middelnederlandsch Woordenboek (MNW) |
Beschrijft de Nederlandse woordenschat uit de periode ca. 1250 tot ca. 1550.
|
Moroccorp |
Moroccorp is een corpus van chats tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden.
![]() |
MuST-Cinema-PE: post-editing in automatic subtitling |
MuST-Cinema-PE is een corpus met post-editingdata van automatisch gegenereerde ondertitels.
![]() |
NAMES Corpus |
Een corpus van Nederlandse voor- en achternamen zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten. De naamvarianten zijn gekoppeld aan een standaardvorm.
|
NAMES Corpus Commercieel |
Een corpus van Nederlandse voor- en achternamen zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten. De naamvarianten zijn gekoppeld aan een standaardvorm.
|
Nederlands als Wetenschapstaal: Scheikunde |
Als onderdeel van het project Nederlands als Wetenschapstaal is een lijst met scheikundige termen samengesteld.
![]() |
Nederlands als Wetenschapstaal: Wiskunde |
Als onderdeel van het project "Nederlands als Wetenschapstaal" is een lijst met wiskundige termen samengesteld.
![]() |
OMBI Arabisch-Nederlands |
Bilinguaal lexicaal bestand met als brontaal Arabisch en als doeltaal Nederlands.
![]() |
OMBI Arabisch-Nederlands Commercieel |
Bilinguaal lexicaal bestand met als brontaal Arabisch en als doeltaal Nederlands.
![]() |
OMBI Nederlands-Arabisch |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Arabisch.
![]() |
OMBI Nederlands-Arabisch Commercieel |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Arabisch.
![]() |
OMBI Nederlands-Deens |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Deens.
![]() |
OMBI Nederlands-Deens Commercieel |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Deens.
![]() |
OMBI Nederlands-Indonesisch |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Indonesisch.
![]() |
OMBI Nederlands-Indonesisch Commercieel |
Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Indonesisch.
![]() |
Oosterveld & Vuyk Juridisch Woordenboek Nederlands – Spaans II |
Oosterveld & Vuyk Juridisch Woordenboek Nederlands – Spaans II is een digitaal, corpusgebaseerd woordenboek in wording. Oosterveld & Vuyk staat onder redactie van Consuelo Oosterveld-Egas Repáraz en mr. Theresa Munneke-Lourens, met medewerking van drs. Margriet Muris.
![]() |
Open Dutch Wordnet |
Open Dutch Wordnet is een lexicale database voor het Nederlands, die 116.992 synsets bevat.
![]() |
OpenSoNaR (Online) |
Online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat. Het SoNaR-corpus is ook als download beschikbaar.
|
Oudnederlands Woordenboek - ONW (Online) |
Een wetenschappelijk woordenboek van het oudste Nederlands.
|
Paco-MT Parallelle Corpora |
Twee (bestaande) parallelle corpora voorzien van automatisch gegenereerde syntactische annotaties en node alignments.
![]() |
PAROLE-lexicon |
Het PAROLE-lexicon bevat ruim 20.000 entry's, die voorzien werden van woordsoort, getal, naamval en syntactische complementatiepatronen.
|
Philosophical Integrator of Computational and Corpus Libraries (PICCL) |
PICCL biedt een workflow aan voor het samenstellen van corpora waarbij een aantal bestaande tools zijn samengevoegd.
|
Pinkhof Geneeskundig Woordenboek (Online) |
Het Pinkhof Geneeskundig Woordenboek (Online) bevat ruim 52.000 medische termen met hun betekenissen en/of verwijzingen.
![]() |
Referentiebestand Belgisch-Nederlands (RBBN) |
Een verzameling van 4000 woorden en uitdrukkingen die typisch zijn voor het Nederlands in België.
![]() |
Referentiebestand Belgisch-Nederlands (RBBN) Commercieel |
Een verzameling van 4000 woorden en uitdrukkingen die typisch zijn voor het Nederlands in België.
![]() |
Referentiebestand Nederlands (RBN) |
Een verzameling van ongeveer 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie.
|
Referentiebestand Nederlands (RBN) Commercieel |
Een verzameling van ongeveer 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie.
|
RND Woordenlijsten |
Fonetische transcripties van dialectwoorden verzameld in Nederland en België. Oorspronkelijk gepubliceerd in de “Reeks Nederlandse Dialectatlassen”.
![]() |
Sepedi Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Sesotho Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Sesotho Genre Classification Corpus |
Contains training and testing data for genre classification for Sesotho. |
Sesotho sa Leboa Genre Classification Corpus |
Contains training and testing data for genre classification for Sesotho sa Leboa. |
Setswana Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Setswana Genre Classification Corpus |
Contains training and testing data for genre classification for Setswana. |
Siswati Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Siswati Genre Classification Corpus |
Contains training and testing data for genre classification for Siswati. |
SoNaR Character N-grams |
Uit de bestanden van het SoNaR-corpus versie 1.2 (SONAR500) zijn n-grammem met de lengtes 1, 2 en 3 afgeleid.
![]() |
SoNaR Groot-corpus Commercieel |
Het SoNaR Groot-corpus Commercieel bevat ruim 271 miljoen woorden afkomstig uit (standaard) Nederlandstalige teksten van na 1954.
![]() |
SoNaR Klein-corpus Commercieel |
Het SoNaR Klein-corpus Commercieel bevat ongeveer 825.000 woorden tekst die semantisch geannoteerd werden. ![]() |
SoNaR Nieuwe Media Corpus |
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten (sms'en, tweets en chatberichten) die verzameld werden binnen het STEVIN-project SoNaR.
![]() |
SoNaR-corpus |
Het SoNaR-corpus bevat ruim 500 miljoen woorden afkomstig uit (standaard) Nederlandstalige teksten van na 1954.
![]() |
Spoken Academic Belgian Dutch Corpus (SABeD) |
Het Spoken Academic Belgian Dutch Corpus bestaat uit 1.028 colleges gegeven op Vlaamse hogescholen en universiteiten.
![]() |
SumNL-samenvattingencorpus |
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp.
![]() |
SumNL-samenvattingencorpus Commercieel |
Het SumNL-samenvattingencorpus is gebaseerd op 28 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp.
![]() |
Taalportaal |
Taalportaal is een uitgebreide grammatica van het Nederlands, Fries en Afrikaans beschreven in het Engels. Het portaal bevat een lijst van taalkundige termen en een taalkundige bibliografie. Taalportaal wordt regelmatig geüpdatet.
![]() |
The LiLaH Emotion Lexicon of Greek, Kurdish, Turkish, Spanish, Farsi and Chinese |
Een lijst met woorden in het Grieks, Koerdisch, Turks, Spaans, Farsi en Chinees (traditioneel en vereenvoudigd) en hun associaties met acht basisemoties en twee sentimenten.
![]() |
Tshivenda Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Tshivenda Genre Classification Corpus |
Contains training and testing data for genre classification for Tshivenda. |
Vertaalwoordenschat (Online) |
Applicatie voor tweetalige woordenboeken met Nederlands als bron- of doeltaal. Momenteel zijn de taalparen Nederlands-Nieuwgrieks, Nederlands-Portugees, Nederlands-Estisch en Nederlands-Fins gratis beschikbaar.
|
Vroegmiddelnederlands Woordenboek - VMNW (Online) |
Een wetenschappelijk woordenboek gebaseerd op ambtelijke bescheiden en literaire teksten uit de dertiende eeuw.
|
VU-DNC-corpus (Online) |
Een diachroon Nederlands krantencorpus dat bestaat uit data van vijf kranten. Voor elk van de kranten is data uit twee jaren beschikbaar (1950/1951 en 2002). Alleen toegankelijk met een CLARIN-account.
|
Wablieft-corpus |
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017).
![]() |
WAI-NOT Corpus |
Het WAI-NOT-corpus bestaat uit 874 krantenartikels, afkomstig uit de WAI-NOT-krant. De artikels zijn opgesteld in eenvoudig te lezen Nederlands en zijn afkomstig uit de periode 2009-2021. Het corpus bevat ongeveer 75.000 woorden.
![]() |
WebCelex (Online) |
Interface waarmee de CELEX-lexicaledatabases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische en syntactische informatie en frequentiegegevens.
|
Woordcombinaties (Online) |
Woordcombinaties toont hoe woorden gebruikt worden in voorbeeldzinnen, welke woorden typisch en/of vaak met elkaar gecombineerd worden en hoe (valentie)patronen samen met collocaties gebruikt worden voor het bouwen van zinnen.
![]() |
Woordenboek der Friese Taal - WFT (Online) |
Het "Wurdboek fan de Fryske taal" is een wetenschappelijk, descriptief woordenboek en bevat ongeveer 120.000 lemma's.
|
Woordenboek der Nederlandsche Taal - WNT (Online) |
Een historisch, wetenschappelijk, beschrijvend woordenboek van het Nederlands van 1500-1976.
|
Woordenboek van Nieuwe Woorden - WNW (Online) |
Het Woordenboek van Nieuwe Woorden (WNW) is een online woordenboek waarin woorden die vanaf het jaar 2000 zijn ontstaan, worden beschreven.
![]() |
Woordenboek Vlaamse Gebarentaal (Woordenboek VGT) |
Dit product bevat het videomateriaal uit het online Woordenboek Vlaamse Gebarentaal. In de 10.025 video's is per video een gebaar vastgelegd.
![]() |
Xitsonga Custom Dictionary for Government Domain |
Custom dictionary developed in a spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language. |
Xitsonga Genre Classification Corpus |
Contains training and testing data for genre classification for Xitsonga. |