Het Historisch Corpus van het Nederlands (HCD) is een diachronisch, regionaal gebalanceerd corpus van verschillende genres geschreven Nederlands. Het corpus werd gemaakt met de bedoeling een belangrijke leemte op te vullen in de onderzoeksinfrastructuur voor historisch Nederlands, die lange tijd geen evenwichtig corpus heeft gehad met data uit alle eeuwen en uit verschillende … [Lees meer...] overHistorical Corpus of Dutch – HCD (Online)
Corpus
Corpus Oudfries (Online)
Het Corpus Oudfries bevat een grote aantal woorden van de Oudfriese taal van ca. 1200-1550, die door Rita van de Poel zijn gelemmatiseerd en van PoS-markeringen voorzien als onderdeel van haar promotieonderzoek. Het corpus kan doorzocht worden op drie linguïstische niveaus: woorden (zoals voorkomend in de tekstgetuige), lemmata en/of part-of-speech. Het corpus is ook verrijkt … [Lees meer...] overCorpus Oudfries (Online)
Gesproken Corpus van de zuidelijk-Nederlandse Dialecten – GCND (Online)
Het Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND) is een taalkundig geannoteerd corpus, gebaseerd op een unieke collectie van dialectopnames (Stemmen uit het Verleden) uit 768 verschillende plaatsen in België, het noorden van Frankrijk en het zuiden van Nederland bij in het algemeen weinig mobiele en laagopgeleide sprekers geboren rond 1900. De opnames werden … [Lees meer...] overGesproken Corpus van de zuidelijk-Nederlandse Dialecten – GCND (Online)
Spoken Academic Belgian Dutch Corpus – SABeD
Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de … [Lees meer...] overSpoken Academic Belgian Dutch Corpus – SABeD
Corpus Hedendaags Nederlands – CHN (Online)
Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. The Corpus … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)