Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 – ca. 1970.
Two lists, each consisting of approx. 500,000 historical word forms, to be used for OCR and OCR post-correction, for the period of 1550 – 1970, approximately.
Lexicon
GiGaNT-Molex
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaags corpusmateriaal van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling.
The GiGaNT-Molex lexicon contains Dutch language material from the Netherlands, Flanders, the Netherlands Antilles, and Surinam coming from corpus material of the Dutch Language Institute (Instituut voor de Nederlandse Taal – INT). It has been manually verified and it follows the official Dutch spelling.
GiGaNT-Molex Commercieel
Het GiGaNT-Molex-lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaagse corpusteksten van het INT. Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling.
The GiGaNT-Molex lexicon contains Dutch language material from the Netherlands, Flanders, the Netherlands Antilles, and Surinam coming from corpus texts of the Dutch Language Institute (Instituut voor de Nederlandse Taal – INT). It has been manually verified and it is in compliance with the official Dutch spelling rules.
Frequentielijsten corpora Commercieel
De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus.
The 5000 most frequent words from the Millions Corpora, the PAROLE 2004 Corpus, the Spoken Dutch Corpus, the ANW Corpus, the Eindhoven Corpus, the D-Coi Corpus and the SoNaR corpus.