Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. The Corpus … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)
Niet-commercieel
Dataset containing hypothetical manner clauses in English and Dutch
Deze dataset bevat door komma's gescheiden bestanden (csv) met informatie over het gebruik van bijzinnen die worden ingeleid door het voegwoord 'as if' in de hedendaagse Britse spraak en van bijzinnen die worden ingeleid door het voegwoord 'alsof' in de hedendaagse Nederlandse spraak. Er is gebruik gemaakt van twee gesproken corpora: (i) het Gesproken BNC1994 en (ii) het Corpus … [Lees meer...] overDataset containing hypothetical manner clauses in English and Dutch
Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Het taalmateriaal "Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing" is samengesteld in het kader van het project Duidelijke Taal. De dataset bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen met betrekking tot eenvoud, accuraatheid en … [Lees meer...] overMenselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Dataset Synthetische Simplificatie
De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de … [Lees meer...] overDataset Synthetische Simplificatie
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)