Het Corpus Hedendaags Nederlands (CHN) is een tekstverzameling met ongeveer 9,6 miljoen teksten uit boeken, blogs, kranten, tijdschriften en journaaluitzendingen uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen. Samen zijn deze teksten goed voor ruim 3 miljard woorden. Vanwege auteursrechten is dat corpus alleen toegankelijk met een CLARIN-account. The Corpus … [Lees meer...] overCorpus Hedendaags Nederlands – CHN (Online)
Corpus
Dataset containing hypothetical manner clauses in English and Dutch
Deze dataset bevat door komma's gescheiden bestanden (csv) met informatie over het gebruik van bijzinnen die worden ingeleid door het voegwoord 'as if' in de hedendaagse Britse spraak en van bijzinnen die worden ingeleid door het voegwoord 'alsof' in de hedendaagse Nederlandse spraak. Er is gebruik gemaakt van twee gesproken corpora: (i) het Gesproken BNC1994 en (ii) het Corpus … [Lees meer...] overDataset containing hypothetical manner clauses in English and Dutch
Eindhoven Corpus
Het Eindhoven Corpus is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens. The Eindhoven Corpus is a collection of Dutch written and transcribed spoken texts from the period 1960 to 1976. The corpus contains approx. 768.000 … [Lees meer...] overEindhoven Corpus
Dataset Synthetische Simplificatie
De Dataset Synthetische Simplificatie werd binnen het project Duidelijke Taal samengesteld en is gebaseerd op de WR-P-E-I-component (websites) van het SoNaR-corpus. De dataset bestaat uit drie delen: 6.986 zinnen uit het SoNaR-corpus, een synthetische vereenvoudiging van de SoNaR-zinnen die gemaakt werd door GPT-4 en zinsparen bestaande uit telkens een SoNaR-zin en de … [Lees meer...] overDataset Synthetische Simplificatie
Lassy Groot-corpus Commercieel
Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. Informatie over de veranderingen in de verschillende versies is te vinden in de README. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er geen kosten aan verbonden. Maar vanwege de grote hoeveelheid gegevens kan … [Lees meer...] overLassy Groot-corpus Commercieel