Dit corpus bevat 57 ondertitelde colleges van de Universiteit van Nederland (UvN). Ondertitels werden toegevoegd aan bestaande video-opnames van colleges van de UvN.
In tegenstelling tot gewone ondertitels zijn de ondertitels die in dit project werden gegenereerd een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en vertonen dus de eigenaardigheden van de gesproken taalmodaliteit, waarbij grammaticale samenhang, typisch voor geschreven teksten, ontbreekt.
Aan de andere kant bevatten de transcripties geen sprekersgeluiden (zoals smakkende lippen of hoesten) of aarzelende geluiden zoals “ehm”. Omwille van de leesbaarheid werden leestekens toegevoegd.
Het doel van de ondertitels is om ondersteuning te bieden aan taalleerders van het Nederlands.
De video's zijn zo geselecteerd dat ze een afspiegeling vormen van de taalvariëteit van het gesproken Nederlands in een educatieve omgeving. Ze behandelen een grote diversiteit aan college-onderwerpen op populair niveau, zoals taalkunde, natuurkunde en geschiedenis. De video's bevatten sprekers van het Noord-Nederlands zoals gesproken in Nederland en van het Zuid-Nederlands zoals gesproken in Vlaanderen (België). Bovendien hebben sommige sprekers een hoorbare andere taalachtergrond zoals Engels of Marokkaans.
This corpus contains 57 subtitled lectures from the Universiteit van Nederland (UvN). Subtitles were added to existing video recordings of lectures of the UvN.
Unlike common subtitles, the subtitles generated in this project are a nearly 100% literal representation of the speech as spoken by the people in the recordings. They contain exact orthographic transcriptions of subsequent words and thus show the peculiarities of the spoken language modality, lacking grammatical coherence typical for written texts.
On the other hand, the transcriptions do not contain speaker noises (such as lip smacks or coughs) nor hesitation sounds as "ehm". For the sake of readability punctuation markers were included.
The purpose of the subtitles is to add support for language learners of Dutch.
The videos are selected to reflect the language variety of spoken Dutch in an educational setting covering a large diversity of lecture topics at a popular level such as linguistics, physics and history. The videos include speakers of Northern Dutch as spoken in the Netherlands and of South Dutch as spoken in Flanders (Belgium). Moreover, some speakers have an audible different language background such as English or Moroccan.
Productdetails
Aantal uren spraak | meer dan 14 uur |
Dataformaat | Video: mp4, geluid: wav, transcripties: txt |
Documentatie | Ondertitelen-UvN-Final.pdf. |
Eigenaar | Taalunie |
Financier | Taalunie |
Jaar | 2020 |
Refereren | Corpus Ondertitelde UvN-colleges - COUC (Version 1.0) (2020) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-s3 |
Talen | Nederlands, Vlaams |
Toepassing | Onderzoek, testen van spraakherkenners |
Versie | 1.0 |
Downloaddetails
Bestand | |
---|---|
Corpus_Ondertitelde_UvN-colleges_1.0.zip |
- Aantal bestanden 1
- Aantal downloads 137
- Bestandsgrootte 21,935.82 MB
- Datum plaatsing 04/12/2020
- Laatst bijgewerkt 26/11/2024
- Versie 1.0