Dataset Synthetische Simplificatie

De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de vereenvoudigde versie daarvan.

The Synthetic Simplification Dataset was compiled within the Duidelijke Taal project and is based on the WR-P-E-I component (websites) of the SoNaR corpus. The dataset consists of three parts: 6,986 sentences from the SoNaR corpus, a synthetic simplification of the SoNaR sentences created by GPT-4 and sentence pairs consisting of one SoNaR sentence and its simplified version each.

Productdetails

Dataformaat	.txt
Jaar	2024
Eigenaar	Instituut voor de Nederlandse Taal
Crowdsourcingapplicatie	https://duidelijketaal.ivdnt.org/
Publicatie	Vincent Vandeghinste, Job van Doeselaar en Bram Vanroy (2024). Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging door middel van crowdsourcing
Refereren	Dataset Synthetische Simplificatie (Version 1.0) (2024) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-y7
Talen	Nederlands
Omvang	6.986 originele zinnen en 6.986 vereenvoudigde versies daarvan
Versie	1.0

Downloaddetails

Bestand
DuidelijkeTaal_DatasetSynthetischeSimplificatie_1.0.zip

Aantal bestanden 1
Aantal downloads 68
Bestandsgrootte 146.62 MB
Datum plaatsing 07/11/2024
Laatst bijgewerkt 23/01/2026
Versie 1.0