Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. In versie 2.0 is er voor elk geluidsbestand een TextGrid-bestand voorhanden met negen tiers:
- stimulus: deze tier is toegevoegd aan de TextGrids van geluidsbestanden met gelezen spraak. De stimuli betreffen de zinnen zoals die werden opgegeven om voor te lezen. Ook voor spontane spraak is er, ter wille van consistentie, een stimulustier toevoegd, maar die is leeg.
- orthographic: de orthografische transcripties in deze tier en de oplijningen van deze transcripties zijn nagekeken en waar nodig gecorrigeerd.
- words: segmentering in woorden, gegenereerd met de Montreal Forced Aligner
- phones: segmentering in klanksegmenten, gegenereerd met de Montreal Forced Aligner
- stress: geeft voor elk klinker aan of die beklemtoond is (gelabeld met 'y') of niet ('n')
- lemma: geeft voor elk woord in de 'word'-tier het lemma. De lemma's zijn gegenereerd met UDPipe Frysk.
- upos: geeft voor elk woord in de 'word'-tier de part-of-speech-tag. De tags zijn gegenereerd met UDPipe Frysk en zijn daarmee consistent met Universal Dependencies.
- feats: geeft voor elk woord de morfologische features. Deze zijn gegenereerd met UDPipe Frysk en zijn daarmee consistent met Universal Dependencies.
- commentary: eventueel commentaar
Hier vindt u een disclaimer i.v.m. het corpus.
The Boarnsterhim Corpus consists of 250 hours of speech in both West Frisian and Dutch by the same sample of bilingual speakers. The corpus contains original recordings from 1982-1984 and a replication study recorded 35 years later. The data collection spans speech of four generations, and combines panel and trend data. In version 2.0, each sound file has a TextGrid file with nine tiers:
- stimulus: this tier has been added to the text grids of sound files containing read speech. The stimuli concern the sentences that were specified for reading aloud. For the sake of consistency, a stimulus tier has also been added for spontaneous speech, but it is empty.
- orthographic: the orthographic transcriptions in this tier and the alignments of these transcriptions have been checked and corrected where necessary.
- words: segmentation into words, generated with the Montreal Forced Aligner
- phones: segmentation into sound segments, added with the Montreal Forced Aligner
- stress: indicates for each vowel whether it is stressed (labelled with “y”) or not (“n”)
- lemma: gives the lemma for each word in the “word” tier. The lemmas were generated with UDPipe Frysk.
- upos: indicates the part-of-speech tag for each word in the “word” tier. The tags were generated with UDPipe Frysk and are therefore consistent with Universal Dependencies.
- feats: indicates the morphological features for each word. These were generated with UDPipe Frysk and are therefore consistent with Universal Dependencies.
- commentary: any comments
Here you will find a disclaimer regarding the corpus.
| Documentatie | Kingma, Martijn, Anne-France Pinget, Wilbert Heeringa, Hans Van de Velde, 2025. The Boarnsterhim Corpus: A Frisian-Dutch bilingual speech corpus in apparent- and real-time. To be submitted to: Language Resources and Evaluation |
| Dataformaat | TextGrid, wav |
| Eigenaar | Fryske Akademy |
| Financier | BHC1 (1982-1984): ZWO (no. 300-165-009), Stichting Taalwetenschap FA and the Friesland Bank. BHC2 (2017-2019): NWO (VENI-grant no. 275-75-10) and the Fryske Akademy. Current republication (2022-2025): Dissertation Kingma (Fryske Akademyfûns and Universiteit van Amsterdam) and Provinsje Fryslân (PF 2019/194740, PF 2022/243186). |
| Jaar | 2025 |
| Project | Het Boarnsterhim Corpus - Synchronie en diachronie yn taal |
| Refereren | Boarnsterhim Corpus (Version 2.0) (2025) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a3-c6 |
| Talen | Fries, Nederlands |
| Toepassing | Taalkunde, spraakherkenning, tweetaligheid, taalverandering |
| Versie | 2.0 |
Downloaddetails
| Bestand | |
|---|---|
| BoarnsterhimCorpus_2.0.zip |
- Aantal bestanden 1
- Aantal downloads 94
- Bestandsgrootte 42,545.91 MB
- Datum plaatsing 16/10/2025
- Laatst bijgewerkt 27/11/2025
- Versie 1.0