Het Spoken Academic Belgian Dutch Corpus bestaat uit gedeeltes van 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)
Corpus
Gold Standard Parallel Corpus of Sign and spoken Language – GoSt-ParC-Sign
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT-materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door authentieke VGT-gebaarders voor een VGT-publiek. Om die reden komt het zo dicht bij spontane alledaagse gebarentaal als mogelijk. Het corpus bevat 10 uur aan videomateriaal … [Lees meer...] overGold Standard Parallel Corpus of Sign and spoken Language – GoSt-ParC-Sign
Hotel Review Corpus in Vlaamse Gebarentaal – VGT_HoReCo
Een multimodaal parallel corpus met de talen Nederlands en Vlaamse Gebarentaal (VGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers. Elke beoordeling is vertaald door slechts 1 vertaler. Het aantal woorden in de beoordelingen varieerde tussen 15 en 400. De duur van de VGT-video's varieerde tussen 10 seconden tot … [Lees meer...] overHotel Review Corpus in Vlaamse Gebarentaal – VGT_HoReCo
MuST-Cinema-PE: post-editing in automatic subtitling
MuST-Cinema-PE is een corpus met post-editingdata van automatisch gegenereerde ondertitels. Het bevat automatisch gegenereerde ondertitels voor 9 video's van TED-talks, hun post-editingversies en procesdata (proceslogs, toetsaanslagen) van drie professionele ondertitelaars in twee taalparen (Engels naar Duits/Italiaans). Dit taalmateriaal is tijdelijk niet bereikbaar. … [Lees meer...] overMuST-Cinema-PE: post-editing in automatic subtitling
Hotel Review Corpus in Nederlandse Gebarentaal – NGT_HoReCo
Een multimodaal parallel corpus met de talen Nederlands en Nederlandse Gebarentaal (NGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers. Elke beoordeling is vertaald door slechts 1 vertaler. Het aantal woorden in de beoordelingen varieerde tussen 15 en 400. De duur van de NGT-video's varieerde tussen 10 seconden … [Lees meer...] overHotel Review Corpus in Nederlandse Gebarentaal – NGT_HoReCo