NAMES Corpus - INT Taalmaterialen

Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaande kennis van varianten en op spellingsovereenkomst. Er is gebruikgemaakt van zowel automatische als handmatige gegevensverwerking. Praktische bruikbaarheid van een standaard (met verschillende kwaliteitsniveaus) had de voorkeur boven een etymologisch verantwoorde afleiding die vaak niet te maken is.

Voor commercieel gebruik zie de commerciële productpagina.

The NAMES Corpus contains a collection of 189,707 given names (61.9 million tokens) and 562,676 surnames (54.6 million tokens) as found in 19th-century birth, marriage and death records (accessible via wiewaswie.co.uk in the 2011 version). It is a result of the CLARIAH project “NAMES,” which aimed to develop name standards for controlling variations in personal names. The clustering of names under a standard is based on existing knowledge of variants and on spelling similarity. Both automatic and manual data processing was used. Practicality of a standard (with different levels of quality) was preferred to an etymologically sound derivation that is often impossible to make.

For commercial use, see the commercial product page.

Productdetails

Dataformaat	tsv, sql
Documentatie	NAMES Manual
Financier	NWO\|KNAW
Jaar	2020
Opdrachtgever	CLARIAH
Project	NAMES
Refereren	NAMES Corpus (Version 1.1) (2020) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-r6
Software	MySQL of equivalent
Talen	Nederlands
Versie	1.1

Downloaddetails

Bestand
NAMESCorpus_1.1.zip

Aantal bestanden 1
Aantal downloads 41
Bestandsgrootte 23.39 MB
Datum plaatsing 02/09/2020
Laatst bijgewerkt 23/01/2026
Versie 1.1