Main Content
Catalogus taalmaterialen
Deze catalogus bevat bronnen, data en tools voor taalkundig onderzoek en taal- en spraaktechnologie (TST) binnen het Nederlandse taalgebied, zoals tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software.
Om taalmaterialen te kunnen downloaden moet u eerst inloggen.
De catalogus bevat een beperkte hoeveelheid software. Meer software is te vinden in de GitHub van het INT.
Onderzoekers of instellingen die datasets of tools willen delen die zijn ontwikkeld in onderzoeksprojecten in de sociale en geesteswetenschappen kunnen deze aanbieden aan het INT. We archiveren de materialen en stellen ze beschikbaar aan andere onderzoekers (o.a. via deze catalogus) en we zorgen er ook voor dat ze gevonden kunnen worden binnen de CLARIN-infrastructuur via de CLARIN-zoekmachine (Virtual Language Observatory). Meer informatie over hoe u materialen kunt deponeren bij het INT vindt u hier.
Nieuw
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit gedeeltes van 200 colleges gegeven op Vlaamse hogescholen en universiteiten.
The Spoken Academic Belgian Dutch Corpus consists of parts of 200 lectures given in higher education institutions in Flanders.
Corpus Hedendaags Nederlands - CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit kranten, boeken, blogs, tijdschriften,... uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden.
The Corpus Hedendaags Nederlands (CHN) is a text collection with approximately 9,6 million texts from newspapers, books, blogs, magazines,... from the Netherlands, Flanders, Suriname and the Netherlands Antilles. Together these texts amount to more than 3 billion words.
Dataset containing hypothetical manner clauses in English and Dutch
Deze dataset bevat informatie over het gebruik van bijzinnen die worden ingeleid door het voegwoord 'as if' in de hedendaagse Britse spraak en van bijzinnen die worden ingeleid door het voegwoord 'alsof' in de hedendaagse Nederlandse spraak.
This dataset contains information about the usage of clauses introduced by the conjunction as if in contemporary British speech and of clauses introduced by the conjunction alsof (‘as if’) in contemporary Dutch speech.
Eindhoven Corpus
Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976.
A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976.
Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Dit taalmateriaal bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen.
This dataset consists of sentences from the SoNaR corpus, a version simplified by GPT-4 and the human evaluations of those simplifications with respect to simplicity, accuracy and fluency.