Het Spoken Academic Belgian Dutch Corpus bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de transcripties manueel geverifieerd. De resulterende teksten werden geanalyseerd door de Frog language analyser.
The Spoken Academic Belgian Dutch Corpus consists of 200 lectures given in higher education institutions in Flanders. The first 25 and the last 5 minutes of each lecture were transcribed using an ASR system tuned to Belgian Dutch and then manual utterance segmentation was applied, followed by manual correction of the automated transcription. The resulting text is processed with the FROG language analyser.
Productdetails
Dataformaat | .txt; FOLiA xml |
Jaar | 2024 |
Financier | Industrial Research Funds (IOF) |
Publicatie | Mathysen, J., Vandeghinste, V., Peters, E. & Wambacq, P. (2024). Constructing SABeD: A Spoken Academic Belgian Dutch Corpus. Selected papers of the CLARIN 2023 Annual Conference. Linköping Electronic Conference Proceedings |
Refereren | Spoken Academic Belgian Dutch Corpus - SABeD (Version 1.0) (2024) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-w4 |
Talen | Belgian-Dutch |
Omvang | 200 lectures (30 minutes per lecture) |
Versie | 1.0 |
Licentie | Creative Commons Attribution Non-commercial 4.0 International. |
Downloaddetails
Bestand | |
---|---|
SABeD-corpus_1.0.zip |
- Aantal bestanden 1
- Aantal downloads 35
- Bestandsgrootte 146.62 MB
- Datum plaatsing 16/04/2024
- Laatst bijgewerkt 17/07/2024
- Versie 1.0