Wablieft-corpus - INT Taalmaterialen

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.

De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.

Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.

The Wablieft corpus contains the digital archive of the Wablieft newspaper (period 2011-2017), as also available on the website http://www.wablieft.be/krant/archief. It contains 2 million words of newspaper material in easy-to-read Dutch. Metadata is available regarding the newspaper section (domestic, sports, ...) and the publication date. This concerns all material since the newspaper has been fully digital and available online, from 2011 to December 2017.

The data is available in different formats: original text files, text files with one sentence per line, annotated with Frog (POS tagging, lemmatization, morphology, named entity recognition, chunking, dependency relations) in FoLiA or CoNNL, and syntactically analyzed with Alpino, in Alpino-xml.

There is an agreement with Wablieft for the distribution of this material for non-commercial purposes. Commercial parties can contact Wablieft to obtain a license for the material.

Productdetails

Aantal woorden	2.000.000
Eigenaar	Wablieft
Jaar	2019
Periode	2011-2017
Refereren	Wablieft-corpus (Version 1.2) (2019) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-q6
Talen	Nederlands
Versie	1.2

Downloaddetails

Bestand
Wablieft-corpus_1.2.tar.gz

Aantal bestanden 1
Aantal downloads 208
Bestandsgrootte 367.37 MB
Datum plaatsing 05/09/2020
Laatst bijgewerkt 23/01/2026
Versie 1.2