De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de … [Lees meer...] overDataset Synthetische Simplificatie
Niet-commercieel
4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
De termenbank 4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) bevat begrippen, afkortingen en namen van instanties uit de financieel-economische wereld. Ze is viertalig met vertaalequivalenten in het Nederlands, Engels, Frans en Duits, en bestaat uit ruim 16.000 records. The 4-Language Finance, Economy & Business Terminology database - … [Lees meer...] over4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
Woordenboek van Nieuwe Woorden – WNW (Online)
Het Woordenboek van Nieuwe Woorden (WNW) is een online woordenboek waarin woorden die vanaf het jaar 2000 zijn ontstaan, worden beschreven. Het WNW neemt niet alleen de beklijvende nieuwe woorden op (app, selfie, keuzestress, ontspullen), maar juist ook veel nieuwe woorden die een kortere tijd bestaan. Het WNW is een online woordenboek in ontwikkeling en er ligt geen … [Lees meer...] overWoordenboek van Nieuwe Woorden – WNW (Online)
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit gedeeltes van 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)
Gold Standard Parallel Corpus of Sign and spoken Language – GoSt-ParC-Sign
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT-materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door authentieke VGT-gebaarders voor een VGT-publiek. Om die reden komt het zo dicht bij spontane alledaagse gebarentaal als mogelijk. Het corpus bevat 10 uur aan videomateriaal … [Lees meer...] overGold Standard Parallel Corpus of Sign and spoken Language – GoSt-ParC-Sign