Het Belgische Federale COVID-19-corpus, genaamd het BeCoS-corpus (Belgian Covid Sign language corpus), bestaat uit het volledige archief van officiële persconferenties van de Belgische federale overheid betreffende de COVID-19-pandemie. De sprekers spreken meestal Nederlands of Frans en een enkele keer Duits, en bijna alle spraak wordt getolkt door een dove gebarentaaltolk die live tolkt wat er wordt gezegd.
De data is beschikbaar als ELAN-bestanden en is voorverwerkt met automatische detectie van sprekerverandering, Belgisch-Nederlandse spraakherkenning, taalidentificatie, interpunctievoorspelling en detectie gebarentalige verandering. In de video's is keypointherkenning toegepast op de gebarentaaltolken.
Versie 1.1 bevat aanvullende tiers in de elan-bestanden betreffende taalidentificatie en spraakherkenning
The Belgian Federal COVID-19 corpus, nicknamed the BeCoS (Belgian Covid Sign language) corpus, consists of the entire archive of official press conferences from the Belgian Federal Government concerning the COVID-19 pandemic. The speakers speak mostly Dutch or French and occasionally German, and nearly all speech is accompanied by a deaf signer who interprets live what is said.
The corpus has been preprocessed with speaker diarisation, Belgian Dutch ASR has been applied, as well as post-ASR language identification, punctuation prediction, signer diarisation, sign language identification, and sign language keypoint recognition.
Version 1.1 contains additional tiers in the elan data files with language identification and language recognition.
Productdetails
Dataformaat | mp4, xml (eaf) |
Jaar | 2023 |
Opdrachtgever | Instituut voor de Nederlandse Taal (INT) |
Project | |
Financier | EU H2020, Grant agreement number: 101017255 |
Documentatie | |
Refereren | BeCoS Corpus (Version 1.1) (2023) [Data set], Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w7. |
Talen | VGT (Vlaamse Gebarentaal), LSFB (Langue des signes de Belgique francophone), Nederlands, Frans, Duits |
Omvang | ±177 uur opgenomen uitzendingen |
Toepassing | Automatisch vertalen, ontwikkelen van taalmodellen |
Versie | 1.1 |
Licentie | Creative Commons Attribution-NonCommercial 3.0 Unported License. |
Downloaddetails
Bestand | |
---|---|
becos-corpus1.1.zip |
- Aantal bestanden 1
- Aantal downloads 37
- Bestandsgrootte 146.62 MB
- Datum plaatsing 16/10/2023
- Laatst bijgewerkt 26/07/2024
- Versie 1.1