Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. The COREA coreference corpus (approximately 150,000 words) consists of Dutch texts in … [Lees meer...] overCOREA-coreferentiecorpus Commercieel
Corpus
BLISS Spoken Dialogue Dataset
Deze dataset bestaat uit Nederlandse spraakopnames van deelnemers die spreken met het BLISS-dialoogsysteem (v1) over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden. Dutch recordings of participants who speak with the BLISS dialogue system about everyday occupations and … [Lees meer...] overBLISS Spoken Dialogue Dataset
Autshumato Sesotho sa Leboa-English Translation Memory
Translation memory from Sesotho sa Leboa (Sepedi) to English (EN-GB), in the government domain for use in the Autshumato ITE application. Productdetails Aantal woorden Text: 44.977 translation units (tokens) Annotaties UTF8, XML, TMX Dataformaat txt Documentatie Readme contained in download Eigenaar North-West University, Centre for Text … [Lees meer...] overAutshumato Sesotho sa Leboa-English Translation Memory
Autshumato isiZulu-English Translation Memory
Translation memory from IsiZulu to English (EN-GB), in the government domain for use in the Autshumato ITE application. Productdetails Aantal woorden Text: 35.458 translation units (tokens) Annotaties UTF8, XML, TMX Dataformaat txt Documentatie Readme contained in download Eigenaar North-West University, Centre for Text Technology … [Lees meer...] overAutshumato isiZulu-English Translation Memory
Autshumato English-Sesotho sa Leboa Parallel Corpora
English and Sepedi parallel corpora aligned on sentence level through a combination of automatic and manual alignment techniques. The parallel corpora were obtained from the SA government domain. Productdetails Aantal woorden Text: 44.981 sentences (tokens) Annotaties UTF8, Aligned, Sentence segmented Dataformaat txt Documentatie Readme available with … [Lees meer...] overAutshumato English-Sesotho sa Leboa Parallel Corpora