Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. Informatie over de veranderingen in de verschillende versies is te vinden in de README. Standaard wordt dit taalmateriaal als download aangeboden en dan zijn er geen kosten aan verbonden. Maar vanwege de grote hoeveelheid gegevens kan … [Lees meer...] overLassy Groot-corpus Commercieel
Productpagina
4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
De termenbank 4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) bevat begrippen, afkortingen en namen van instanties uit de financieel-economische wereld. Ze is viertalig met vertaalequivalenten in het Nederlands, Engels, Frans en Duits, en bestaat uit ruim 16.000 records. The 4-Language Finance, Economy & Business Terminology database - … [Lees meer...] over4-Language Finance, Economy & Business Terminology — NL-EN-FR-DE (version 2.0) (Online)
Woordenboek van Nieuwe Woorden – WNW (Online)
Het Woordenboek van Nieuwe Woorden (WNW) is een online woordenboek waarin woorden die vanaf het jaar 2000 zijn ontstaan, worden beschreven. Het WNW neemt niet alleen de beklijvende nieuwe woorden op (app, selfie, keuzestress, ontspullen), maar juist ook veel nieuwe woorden die kortere tijd bestaan. Het WNW is een online woordenboek in ontwikkeling en er ligt geen papieren … [Lees meer...] overWoordenboek van Nieuwe Woorden – WNW (Online)
Spoken Academic Belgian Dutch Corpus (SABeD)
Het Spoken Academic Belgian Dutch Corpus bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de … [Lees meer...] overSpoken Academic Belgian Dutch Corpus (SABeD)
Gold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)
GoSt-ParC-Sign is een multimodaal corpus van VGT met een vertaling in geschreven Nederlands als doeltaal. Alle VGT-materiaal in dit corpus bestaat uit reeds bestaande video's die werden gemaakt door oorspronkelijke VGT-sprekers voor een VGT-publiek. Om die reden komt het zo dicht bij spontane alledaagse gebarentaal als mogelijk. Het corpus bevat 10 uur aan videomateriaal … [Lees meer...] overGold Standard Parallel Corpus of Sign and spoken Language (GoSt-ParC-Sign)