Het taalmateriaal "Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing" is samengesteld in het kader van het project Duidelijke Taal. De dataset bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen met betrekking tot eenvoud, accuraatheid en … [Lees meer...] overMenselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing
Niet-commercieel
Dataset Synthetische Simplificatie
De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de … [Lees meer...] overDataset Synthetische Simplificatie
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)
Gold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT-materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door authentieke VGT-gebaarders voor een VGT-publiek. Om die reden komt het zo dicht bij spontane alledaagse gebarentaal als mogelijk. Het corpus bevat 10 uur aan videomateriaal … [Lees meer...] overGold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)
Hotel Review Corpus in Vlaamse Gebarentaal (VGT_HoReCo)
Een multimodaal parallel corpus met de talen Nederlands en Vlaamse Gebarentaal (VGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers. Elke beoordeling is vertaald door slechts 1 vertaler. Het aantal woorden in de beoordelingen varieerde tussen 15 en 400. De duur van de VGT-video's varieerde tussen 10 seconden tot … [Lees meer...] overHotel Review Corpus in Vlaamse Gebarentaal (VGT_HoReCo)