Main Content
Catalogus taalmaterialen
Deze catalogus bevat bronnen, data en tools voor taalkundig onderzoek en taal- en spraaktechnologie (TST) binnen het Nederlandse taalgebied, zoals tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software.
Om taalmaterialen te kunnen downloaden moet u eerst inloggen.
Onderzoekers of instellingen die datasets of tools willen delen die zijn ontwikkeld in onderzoeksprojecten in de sociale en geesteswetenschappen kunnen deze aanbieden aan het INT. We archiveren de materialen en stellen ze beschikbaar aan andere onderzoekers (o.a. via deze catalogus) en we zorgen er ook voor dat ze gevonden kunnen worden binnen de CLARIN-infrastructuur via de CLARIN-zoekmachine (Virtual Language Observatory). Meer informatie over hoe u materialen kunt deponeren bij het INT vindt u hier.
Nieuw
Corpus Hedendaags Nederlands - CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit kranten, boeken, blogs, tijdschriften,... uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden.
The Corpus Hedendaags Nederlands (CHN) is a text collection with approximately 9,6 million texts from newspapers, books, blogs, magazines,... from the Netherlands, Flanders, Suriname and the Netherlands Antilles. Together these texts amount to more than 3 billion words.
Dataset containing hypothetical manner clauses in English and Dutch
Deze dataset bevat informatie over het gebruik van bijzinnen die worden ingeleid door het voegwoord 'as if' in de hedendaagse Britse spraak en van bijzinnen die worden ingeleid door het voegwoord 'alsof' in de hedendaagse Nederlandse spraak.
This dataset contains information about the usage of clauses introduced by the conjunction as if in contemporary British speech and of clauses introduced by the conjunction alsof (‘as if’) in contemporary Dutch speech.
Eindhoven Corpus
Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976.
A corpus of Dutch written and transcribed spoken texts from the period 1960 to 1976.
Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Dit taalmateriaal bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen.
This dataset consists of sentences from the SoNaR corpus, a version simplified by GPT-4 and the human evaluations of those simplifications with respect to simplicity, accuracy and fluency.
Dataset Synthetische Simplificatie
De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de vereenvoudigde versie daarvan. The dataset consists of three parts: 6,986 sentences from the SoNaR corpus, a synthetic simplification of the SoNaR sentences created by GPT-4 and sentence pairs consisting of one SoNaR sentence and its simplified version each.