Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.
Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.
The Wablieft Corpus contains the digital archive of the Wablieft paper (from 2011-2017). It contains 2 million words of easy-to-read Dutch.
Productdetails
Aantal woorden | 2.000.000 |
Eigenaar | Wablieft |
Jaar | 2019 |
Periode | 2011-2017 |
Refereren | Wablieft-corpus (Version 1.2) (2019) [Data set]. Available at the Dutch Language Institute: https://hdl.handle.net/10032/tm-a2-q6 |
Talen | Nederlands |
Versie | 1.2 |
Downloaddetails
Bestand | |
---|---|
wablieft_v1.2.tgz |
- Aantal bestanden 1
- Aantal downloads 188
- Bestandsgrootte 367.37 MB
- Datum plaatsing 05/09/2020
- Laatst bijgewerkt 14/06/2024
- Versie 1.2