Korpusa deqên bi kurdiya soranî ya Asosoftê

Korpusa deqên bi kurdiya soranî ya Asosoftê, anku bi kurdiya navendî: Korpisî deqî kurdîy soranîy Asosoft, yekemîn korpusa qebare-mezin a kurdî ye ku ji aliyê koma vekolîn û peredana Asosoftê hatiye berhevkirin û pêvajokirin. Weşana yekem ya vê korpusê bo kurdiya navendî an soranî ye û 458.000 belgenameyan li xwe digire.

Tekstên korpusê biguhêre

Deqên vê korpusê ji malperan, navendên havalnêrî, pirtûk, kovar û hwd hatine komkirin. Beşek ji belgenameyên korpusê bi leybilê babetan (topic tags) hatine destnîşankirin û vekolîner dikarin van taybetmendiyan ji bo karên venasînên babetan (topic identification) bi kar bînin. Her weha, ew korpus bo karên dinên pêvajoya zimanê siruştî wek venasîna axaftinê (speech recognition) û deranîna modela zimên (language model) û wişedankê (lexicon) tê bikaranîn [1][2][3]..

Taybetmendiyên giştî yên korpusê biguhêre

  • Çavkanî: malperên kurdî, rojname, kovar, pirtûk
  • Jimareya belgenameyan: 458.000
  • Jimareya giştî ya peyvan: 188 mîlyon
  • Format: TEI

Çavkanî biguhêre

  1. ^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
  2. ^ Kopîkirina arşîvê, ji orîjînalê di 9 adar 2019 de hat arşîvkirin, roja gihiştinê 16 adar 2019{{citation}}: CS1 maint: archived copy as title (lînk)
  3. ^ https://github.com/AsoSoft/AsoSoft-Text-Corpus