Het Spoken Academic Belgian Dutch Corpus bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)
Niet-commercieel
Gold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT-materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door oorspronkelijke VGT-sprekers voor een VGT-publiek. Om die reden komt het zo dicht bij spontane alledaagse gebarentaal als mogelijk. Het corpus bevat 10 uur aan videomateriaal … [Lees meer...] overGold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)
Hotel Review Corpus in Vlaamse Gebarentaal (VGT_HoReCo)
Een multimodaal parallel corpus met de talen Nederlands en Vlaamse Gebarentaal (VGT). 297 geschreven hotelbeoordelingen werden vertaald uit het Nederlands in NGT door 6 professionele, dove vertalers. Elke beoordeling is vertaald door slechts 1 vertaler. Het aantal woorden in de beoordelingen varieerde tussen 15 en 400. De duur van de VGT-video's varieerde tussen 10 seconden tot … [Lees meer...] overHotel Review Corpus in Vlaamse Gebarentaal (VGT_HoReCo)
MuST-Cinema-PE: post-editing in automatic subtitling
MuST-Cinema-PE is een corpus met post-editingdata van automatisch gegenereerde ondertitels. Het bevat automatisch gegenereerde ondertitels voor 9 video's van TED-talks, hun post-editingversies en procesdata (proceslogs, toetsaanslagen) van drie professionele ondertitelaars in twee taalparen (Engels naar Duits/Italiaans). Dit taalmateriaal is tijdelijk niet bereikbaar. … [Lees meer...] overMuST-Cinema-PE: post-editing in automatic subtitling
Oosterveld & Vuyk Juridisch Woordenboek Nederlands – Spaans II
Oosterveld & Vuyk Juridisch Woordenboek Nederlands – Spaans II is een digitaal, corpusgebaseerd woordenboek in wording. Oosterveld & Vuyk staat onder redactie van Consuelo Oosterveld-Egas Repáraz en Theresa Munneke-Lourens, met medewerking van drs. Margriet Muris. Oosterveld & Vuyk Legal Dictionary Dutch - Spanish II is a digital corpus based dictionary in … [Lees meer...] overOosterveld & Vuyk Juridisch Woordenboek Nederlands – Spaans II