Het taalmateriaal "Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing" is samengesteld in het kader van het project Duidelijke Taal. De dataset bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen met betrekking tot eenvoud, accuraatheid en … [Lees meer...] overMenselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Niet-commercieel
Dataset Synthetische Simplificatie
De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de … [Lees meer...] overDataset Synthetische Simplificatie
4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
De termenbank 4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) bevat begrippen, afkortingen en namen van instanties uit de financieel-economische wereld. Ze is viertalig met vertaalequivalenten in het Nederlands, Engels, Frans en Duits, en bestaat uit ruim 16.000 records. The 4-Language Finance, Economy & Business Terminology database - … [Lees meer...] over4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
Woordenboek van Nieuwe Woorden – WNW (Online)
Het Woordenboek van Nieuwe Woorden (WNW) is een online woordenboek waarin woorden die vanaf het jaar 2000 zijn ontstaan, worden beschreven. Het WNW neemt niet alleen de beklijvende nieuwe woorden op (app, selfie, keuzestress, ontspullen), maar juist ook veel nieuwe woorden die een kortere tijd bestaan. Het WNW is een online woordenboek in ontwikkeling en er ligt geen … [Lees meer...] overWoordenboek van Nieuwe Woorden – WNW (Online)
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit gedeeltes van 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)