Spoken Academic Belgian Dutch Corpus (SABeD)

Het Spoken Academic Belgian Dutch Corpus bestaat uit gedeeltes van 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de transcripties manueel geverifieerd. De resulterende teksten werden geanalyseerd door de Frog language analyser.

Deze versie is vervangen door een nieuwere: versie 1.1

The Spoken Academic Belgian Dutch Corpus consists of parts of 200 lectures given in higher education institutions in Flanders. The first 25 and the last 5 minutes of each lecture were transcribed using an ASR system tuned to Belgian Dutch and then manual utterance segmentation was applied, followed by manual correction of the automated transcription. The resulting text is processed with the FROG language analyser.

This version has been replaced by a new one: version 1.1

Productdetails

Dataformaat	.txt; FOLiA xml
Jaar	2024
Financier	Industrial Research Funds (IOF)
Publicatie	Mathysen, J., Vandeghinste, V., Peters, E. & Wambacq, P. (2024). Constructing SABeD: A Spoken Academic Belgian Dutch Corpus. Selected papers of the CLARIN 2023 Annual Conference. Linköping Electronic Conference Proceedings
Refereren	Spoken Academic Belgian Dutch Corpus - SABeD (Version 1.0) (2024) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-w4
Talen	Belgian-Dutch
Omvang	200 lectures (30 minutes per lecture)
Versie	1.0
Licentie	Creative Commons Attribution Non-commercial 4.0 International.

Downloaddetails

Aantal bestanden 0
Aantal downloads 49
Bestandsgrootte 146.62 MB
Datum plaatsing 16/04/2024
Laatst bijgewerkt 16/01/2026
Versie 1.0