NoerNova Logo

January 4, 2025

Trend AI ပီ 2024 လႄႈၵၢၼ်ယုၵ်ႉမုၼ်းၽႃႇသႃႇတႆး

Trend AI ပီ 2024 လႄႈၵၢၼ်ယုၵ်ႉမုၼ်းၽႃႇသႃႇတႆး

Contents

Intro

ပီ 2024 ပဵၼ်ပီဢၼ်တီႈမီးလွင်ႈယုၵ်ႉမုၼ်းလႄႈလွင်ႈလႅၵ်ႈလၢႆႈၼႂ်းတူင်ႇဝူင်း AI တင်းၼမ် လွင်ႈတူင်ႉၼိုင်ဢၼ်ၽႄႈတိူၼ်းလႄႈမီးလွင်ႈတုမ်ႉတွပ်ႇတင်းၼမ် ႁၼ်တေပဵၼ်လွင်ႈဢၼ် AI ၶဝ်ႈမႃးမီးၽွၼ်းယွၼ်ႈၼႂ်းၵၢၼ်ၸႂ်ႉၸူဝ်ႈပၢၼ်ႁဝ်းၵူႈဝၼ်းဝၼ်း ဢမ်ႇဝႃႈတေပဵၼ်ၼႂ်းၼႃႈၵၢၼ်၊ ၵၢၼ်သိူၵ်ႈႁႃၶေႃႈမုၼ်း၊ ၵၢၼ်ၸႂ်ႉသိုဝ်ႇတူင်ႇဝူင်း ၵၢၼ်ႁဵတ်းဢွၵ်ႇလွၼ်ႉလိူင်ႈ (contents) ၸိူဝ်းၼႆႉ AI ၶဝ်ႈမႃးပဵၼ်တူဝ်ၸွႆႈႁဵတ်းႁႂ်ႈႁဝ်းႁဵတ်းၵၢၼ်ငၢႆႈၶိုၼ်ႈတင်းၼမ်။

AI ၸိူဝ်းၼႆႉၵမ်ႈၼမ်တႃႇတေၸႂ်ႉတိုဝ်းလႆႈလီ ၼႂ်းယၢမ်းၽွင်းမိူဝ်ႈလဵဝ်သမ်ႉမီးၽႃႇသႃႇဢၼ်ၸႂ်ႉတိုဝ်းလႆႈလီဢမ်ႇလၢႆၽႃႇသႃႇၵူၺ်း မိူၼ်ၼင်ႇ ဢိင်းၵလဵတ်ႈ၊ ၶႄႇ၊ ၸျႃႇပၢၼ်ႇ၊ ထႆး၊ ၸိူဝ်းၼႆႉပဵၼ်ၽႃႇသႃႇဢၼ်လႆႈမီးလွင်ႈယုၵ်ႉမုၼ်းႁႂ်ႈၸႂ်ႉလႆႈၼႂ်းပၢၼ် AI လီလီ တိူဝ်းမႃးတင်းၼမ်ၼႂ်းပီ 2024 ယဝ်ႉ။

ပေႃးဝႃႈ AI ၼႆၶေႃႈလဵဝ် မၼ်းမီးႁူဝ်ၶေႃႈပႃႈတႂ်ႈမၼ်းထႅင်ႈၵႂၢင်ႈၶႂၢင် ဢၼ်ႁၼ်ၸႂ်ႉတိုဝ်းၵၼ် လႄႈတေႁူႉၸၵ်းၵၼ်ၼမ်ယၢမ်းမိူဝ်ႈလဵဝ်ပဵၼ် Gen-AI (Generative AI) AI ဢၼ်ၸၢင်ႈၶူင်ဢွၵ်ႇလၢႆလၢႆမဵဝ် မိူၼ်ၼင်ႇ Text, Code, Chatbots ဢမ်ႇၼၼ် Music, Voice, Audio လႄႈ Image, Video, Arts ၸိူဝ်းၼႆႉ ၸၢင်ႈၸႂ်ႉ AI သေႁႂ်ႈမၼ်းၶူင်ဢွၵ်ႇၸွမ်းၼင်ႇၶေႃႈသင်ႇ (Prompt) ဢၼ်ႁဝ်းပၼ်ၼၼ်ႉယဝ်ႉ။

ၼႂ်းပွင်ႈၵႂၢမ်းႁူဝ်ၼႆႉတေၾူဝ်းၵတ်ႉသ် (Focus) ယိူင်းၸူးတီႈ Text Generative AI လႄႈ (NLP) Natural Language Processing ၵွပ်ႈပဵၼ်ပိုၼ်ႉၶၢမ်ႇၶွင်ႇ Gen-AI ၵူႈဢၼ် ဢၼ်ပိူၼ်ႈတိုၵ်ႉၶႂၢၵ်ႈတူဝ်းၼႃႈ လႄႈၶတ်းၸႂ်ယုၵ်ႉမုၼ်းၵၼ်ယူႇ လႄႈၼိူင်းတူၺ်းတင်းလိၵ်ႈလၢႆးၽႃႇသႃႇတႆးႁဝ်းဝႃႈမီးသင်ယုၵ်ႉမုၼ်းမႃးထႅင်ႈ။

2024 Trend

ဝၢႆးသေ Chat-GPT ပိုတ်ႇတူဝ်မႃးမိူဝ်ႈပီ 2022 ဢၼ်ပဵၼ် Text-Base AI လႄႈၸၢင်ႈဢဝ်ၶေႃႈသင်ႇ (Prompt) သေႁႂ်ႈမၼ်းပွင်ႇၸႂ်ဢၼ်ႁဝ်းၶႂ်ႈႁႂ်ႈမၼ်းၶူင်ဢွၵ်ႇပၼ် (Generated) လႄႈ Gen-AI လၢႆလၢႆဢၼ်ၵေႃႈလႆႈၵိူတ်ႇၸွမ်းမႃး။

Parameter Size

ပီ 2024 ဢၼ်ပူၼ်ႉမႃးၼႆႉ ၵၢၼ်ယုၵ်ႉမုၼ်း Gen-AI ယိူင်းၸူးၵႂႃႇတီႈ ၵၢၼ်ႁဵတ်းႁႂ်ႈမၼ်းယိုင်ႈၶႅၼ်းၶႅၼ်ႇၶိုၼ်ႈ ၼိုင်ႈၵေႃႈလူၺ်ႈၵၢၼ်ထႅမ်ထႅင်ႈ parameter (parameter size ၼႂ်း Gen-AI ပဵၼ်မိူၼ်တူဝ်ဢၼ်တေႁဵၼ်းႁူႉႁူဝ်ယွႆႈၶေႃႈမုၼ်းၼႂ်း Machine Learning ယိူင်ႈၶႅၼ်း parameter size ယႂ်ႇၵႃႈႁိုဝ် မၼ်းတေႁဵၼ်းႁူႉႁူဝ်ယွႆႈၵူႈၸိူဝ်ၸိူဝ်းလႆႈၼမ်)

  • GPT-4 မီးတၢင်းယႂ်ႇ parameter size 1.8 trillion (1,800,000,000,000) - ယုၵ်ႉမုၼ်းမႃးတီႈ GPT-3 175B (175,000,000,000)
  • Llama 3.2 မီးတၢင်းယႂ်ႇ parameter size 750B (750,000,000,000)

မိူဝ်ႈလဵဝ်ၵၼ်ၵေႃႈ ၶတ်းၸႂ်ႁႂ်ႈ parameter လဵၵ်ႉလူင်း? တွၼ်ႈတႃႇႁႂ်ႈမၼ်းၸႂ်ႉလႆႈၼႂ်းၶိူင်ႈ (Devices) မိူၼ်ၼင်ႇ ၶွမ်းသုၼ်ႇတူဝ် (PC) ၶိူင်ႈၾူၼ်း (Mobile) ၸိူဝ်းၼႆႉ

Context Size and Efficiency

LLM မိူၼ်ၼင်ႇ Chat-GPT, Llama, Gemini, Claude လႄႈ ai models ထႅင်ႈလၢႆလၢႆဢၼ် တေႁပ်ႉလႆႈၶေႃႈၵႂၢမ်း Inputs, Outputs size တေႃႇထိုင်ႇ limited မၼ်း မိူၼ်ၼင်ႇ GPT-3 (2048 tokens) လႄႈ GPT-4 (32,000 tokens) ယိုင်ႈ context size မၼ်းယႂ်ႇၵႃႈႁိုဝ် မၼ်းယိုင်ႈၶႅၼ်းတေၸၢင်ႈတွပ်ႇပၼ်ႁူဝ်ယွႆႈၶေႃႈထၢမ်ဢၼ်ႁဝ်းပွၼ်ႈပၼ်မၼ်းၼၼ်ႉ။

ၵူၺ်းၵႃႈယိုင်ႈႁဵတ်း Parameter Size လႄႈ Context Size ယႂ်ႇၵႃႈႁိုဝ်ၵေႃႈမၼ်းယိုင်ႈၸႂ်ႉႁႅင်းၸၢၵ်ႈ ႁႅင်းၾႆးၾႃႉ ၸဵမ်ၶၢဝ်းယၢမ်းတွပ်ႇ လႄႈၶၢဝ်းယၢမ်းသွၼ် (Train) ၼမ်ၶိုၼ်ႈထႅင်ႈလၢႆပုၼ်ႈ။

RAG (Retrieval-Augmented Generation)

RAG ပဵၼ်လွၵ်းလၢႆးဢၼ်ႁဝ်းၸၢင်ႈႁဵတ်းႁႂ်ႈ LLM ၸၼ်ၶေႃႈမုၼ်းဢၼ်ႁဝ်းမီးဝႆႉၼႂ်း Databases ဢမ်ႇၼၼ် documents files လႄႈႁႂ်ႈ LLM ဢၢင်ႈဢိင်ၶေႃႈမုၼ်းၼႂ်းၼၼ်ႉသေ တွပ်ႇပၼ်ၶေႃႈထၢမ်ႁဝ်း၊ ၵမ်ႉၼမ်ၸႂ်ႉၵၼ်ၼႂ်းလုမ်းၼႂ်းၸႆး organization, institute ဢၼ်မီးၶေႃႈမုၼ်းသုၼ်ႇတူဝ် လူဝ်ႇ privacy လႄႈ LLM ဢၼ်ဢွၵ်ႇမႃးဢမ်ႇမီးၶေႃႈမုၼ်းၸိူဝ်းၼၼ်ႉတႃႇတွပ်ႇၶေႃႈထၢမ်။

Multimodel

လိူဝ်သေ LLM text-base generation ယဝ်ႉ ဢၼ်မေႃႇတႄႇလ်ဢေႇဢၢႆႇလၢႆလၢႆဢၼ်ယုၵ်ႉမုၼ်းၶိုၼ်ႈမႃးထႅင်ႈၵေႃႈ ပဵၼ်ဢၼ်ႁွင်ႉဝႃႈ multimodel ၼၼ်ႉၼႆပဵၼ်ၵၢၼ်ၸႂ်ႉ AI Model လၢႆလၢႆဢၼ်မႃးႁူမ်ႈၵၼ်ႁဵတ်းၵၢၼ် မိူၼ်ၼင်ႇ သႂ်ႇ TTS models, ASR models, OCR models, Image and Optical (Vision), Videos metadata, content extraction ၸိူဝ်းၼႆႉ။

ဢၼ်ၼႆႉႁဵတ်းႁႂ်ႈ AI ၸၢင်ႈႁဵတ်းၵၢၼ် ၸႂ်ႉၵၢၼ်လႆႈၵႂၢင်ႈၶႂၢင်ၶိုၼ်ႈ မိူၼ်ၼင်ႇ ထၢမ်ၶေႃႈထၢမ်ၵဵဝ်ႇလူၺ်ႈဢၼ်မီးၼႂ်းၶႅပ်းႁၢင်ႈ၊ ၸႂ်ႉၶူင်ဢွၵ်ႇၶႅပ်းႁၢင်ႈ၊ ၸႂ်ႉႁုပ်ႈပၼ်ၶေႃႈမုၼ်းၼႂ်း video. ၸႂ်ႉသဵင်သေသင်ႇၵၢၼ် AI. တေႃႇထိုင်ၸႂ်ႉမၼ်းႁဵတ်းဢွၵ်ႇ video လႆႈၼၼ်ႉယဝ်ႉ။

ၼႆႉပဵၼ်တူဝ်ယၢင်ႇဢိတ်းဢွတ်းၶွင်ၵၢၼ်ယုၵ်ႉမုၼ်း LLM ၼႂ်းပီ 2024 ၶတ်းၸႂ်ႁဵတ်းႁႂ်ႈမၼ်းၵတ်ႉၶႅၼ်ႇၶိုၼ်ႈ ၵူၺ်းႁႂ်ႈမီး efficiency တႃႇႁႅင်းၶိူင်ႈ ႁႅင်းၾႆး ႁႅင်းၶၢဝ်းယၢမ်း။

Human language and LLM

ၵၢၼ်ယုၵ်ႉမုၼ်း LLM ၽၢႆႇၼိုင်ႈၵေႃႈ ၸိုင်ႈမိူင်းလႄႈၸဝ်ႈၶွင်ၽႃႇသႃႇၽႂ်မၼ်းၵေႃႈ ၶတ်းၸႂ်ယုၵ်ႉမုၼ်းၽႃႇသႃႇၶွင်ၸဝ်ႈၵဝ်ႇႁႂ်ႈၶိုတ်းၸၼ်ႉလႆႈၼင်ႇၽႃႇသႃႇဢိင်းၵလဵတ်ႈ၊ ပေႃးဝႃႈၽႃႈသႃႇၽႂ်ဢမ်ႇၸႂ်ႉလႆႈ ဢမ်ႇၶိုတ်းလႆႈၼႆၵေႃႈ ၽႃႈသႃႇၼၼ်ႉႁူႉတေဢမ်ႇၸႂ်ႉလႆႈၼႂ်းၵၢပ်ႈပၢၼ်မိူဝ်းၼႃႈယဝ်ႉ။

ၽႃႇသႃႇထႆးလႆႈယုၵ်ႉမုၼ်း LLM တႃႇၽႃႇသႃႇထႆးၵမ်းသိုဝ်ႈ မိူၼ်ၼင်ႇ Typhoon, OpenThai-GPT ၸိူဝ်းၼႆႉလႆႈဢဝ်တၢင်းႁူမ်ႈမိုဝ်းၵၼ်လၢႆလၢႆၽၢႆႇ မိူၼ်ၼင်ႇၾၢႆႇၶူၼ်ႉၶႂႃႉယေးငိုၼ်းထႆး SCB (research), ၸၼ်ႉၸွမ်လၢႆလၢႆတီႈ လႄႈ ၶွမ်ႇပၼီႇယႂ်ႇယႂ်ႇ မိူၼ်ၼင်ႇ Microsoft Thailand, Agoda, National Telecom, Nectec, Pantip ၸိူဝ်းၼႆႉ။

LLM and Shan Language (LLM လႄႈၽႃႇသႃႇတႆး)

ၽႃႇသႃႇတႆးလူး လႆႈမီးၵၢၼ်ယုၵ်ႉမုၼ်းၼႂ်းၵၢပ်ႈပၢၼ် AI ၸိူင်ႉႁိုဝ်ၽွင်ႈၼႂ်းပီ 2024?

lope-chat-shan-llm-demoLLM ၽႃႇသႃႇတႆး ဢၼ်တိုၵ်ႉမီးၶေႃႈမုၼ်းဢေႇ ပႆႇတွပ်ႇလႆႈမိူၼ်ၶေႃႈၵႂၢမ်းၵူၼ်းလီလီ

ၵၢၼ်ယုၵ်ႉမုၼ်း AI မိူၼ်ၼင်ႇ Gen-AI လႆႈၸႂ်ႉတင်းႁႅင်းၵူၼ်း ႁႅင်းငိုၼ်း လႄႈႁႅင်းပၢႆးပၺ်ႇၺႃႇႁူမ်ႈၵၼ်သေ ၸင်ႇပဵၼ်မႃးလႆႈ။

ၵူၺ်းၵၢၼ်ယုၵ်ႉမုၼ်းၸိူဝ်းၼႆႉၵေႃႈ လႆႈၶႂၢၵ်ႈပၼ်ပႃးၽႃႈသႃႇတၢင်ႇၸိူဝ်း မိူၼ်ၼင်ႇၽႃႇသႃႇတႆးႁဝ်းယူႇ (Fact: LLM ၵူႈဢၼ်ဢၼ်ဢွၵ်ႇမႃးၼၼ်ႉ ႁူႉၸၵ်းလိၵ်ႈတႆးတင်းမူတ်းယဝ်ႉ) ဢၼ်လမ်ႇလွင်ႈသုတ်းလႄႈပဵၼ်တီႈတႄႇမၼ်းတႃႇတေယုၵ်ႉမုၼ်းလွင်ႈ AI လႄႈၽႃႇသႃႇၼိုင်ႈဢၼ်ၼႆႉပဵၼ် ႁႅင်းၶေႃႈမုၼ်းၽႃႇသႃႇ

Low Resource Language (ၽႃႇသႃႇဢၼ်မီးႁႅင်းတိုၼ်းၶေႃႈမုၼ်းဢေႇ)

Large Language Model မိူၼ်ၼင်ႇ GPT-3 ၼၼ်ႉၶဝ်ၸႂ်ႉၶေႃႈမုၼ်းလိၵ်ႈဢၼ်မီးဝႆႉၼိူဝ် Internet သေပွၼ်ႈသွၼ်ဝႆႉ၊ ၼႂ်းၶေႃႈမုၼ်းၸိူဝ်းၼၼ်ႉ +90% ပဵၼ်လိၵ်ႈဢိင်းၵလဵတ်ႈ လိူဝ်ၼၼ်ႉ ၸင်ႇပဵၼ်လိၵ်ႈလၢႆးၽႃႇသႃႇတၢင်ႇမဵဝ်း။

LanguageWord CountPercentage of Total Words
English181,014,683,60892.65%
French3,553,061,5361.82%
German2,870,869,3961.47%
Russian2,608,041,9441.34%
Chinese1,432,821,3120.73%
.........
Other...0.11%

ၽႃႇသႃႇထႆး လႄႈမၢၼ်ႈၵေႃႈယူႇၼႂ်း Other (0.11%) ၼၼ်ႉၵူၺ်း

လိၵ်ႈလၢႆးၽႃႇသႃႇ ဢၼ်မီးၶေႃႈမုၼ်းဢႄႇ (Low Resource Language) ပွင်ႇဝႃႈၶေႃႈမုၼ်းလိၵ်ႈဢၼ်တႅမ်ႈဝႆႉၼိူဝ် Internet ဢမ်ႇၼၼ် ဢၼ်ပဵၼ် Digital format ယဝ်ႉၼၼ်ႉဢေႇႁႅင်း။

မိူၼ်ၼင်ႇ GPT-3 ၼၼ်ႉၸႂ်ႉၶေႃႈမုၼ်း 45TB (45,000GB) သေပွၼ်ႈသွၼ်ပၼ် ၼႂ်းၼၼ်ႉမီးၶေႃႈမုၼ်းလိၵ်ႈထႆး-မၢၼ်ႈ လႄႈတၢင်ႇမဵဝ်း 49.5GB (0.11%) ၸိူဝ်းၼႆႉၵူၺ်း၊ ၵွပ်ႈၼၼ် လိၵ်ႈတႆးတေယိုင်ႈၶႅၼ်းမီးဢႄႇလိူဝ်ၼၼ်ႉတႄႉတႄႉ။

ၽူႈတႅမ်ႈပွင်ႈၵႂၢမ်းလႆႈႁႃၵဵပ်းၶေႃႈမုၼ်းဢၼ်ပဵၼ်လိၵ်ႈတႆးဢၼ်မီးၼိူဝ် internet တင်းမူၼ်းၼင်ႇၵႃႈႁႃလႆႈၼၼ်ႉ မီးယူႇ 140+ ဝႅပ်ႉသၢႆႉသ်ၸိူဝ်းၼႆႉ မီးၶေႃႈမုၼ်းလိၵ်ႈယူႇ 1GB ၸိူဝ်းၼႆႉၵူၺ်း။

shan-character-counts

ၼႂ်းၶေႃႈမုၼ်းဢၼ်မီးဝႆႉၼၼ်ႉ ပေႃးၼိူင်း domain တူၺ်းၼႆႉ ၶေႃႈမုၼ်းၵမ်ႈၼမ်ပဵၼ်ၶေႃႈမုၼ်းၶၢဝ်ႇ ၵၢၼ်မိူင်း ၵၢၼ်သိုၵ်း ၸိူဝ်းၼႆႉၼမ်သေပိူၼ်ႈယဝ်ႉ။

shan_character_counts_2

ၶေႃႈမုၼ်းလီဢၼ်တေၸႂ်ႉလႆႈလီၼႂ်းၵၢၼ်သွၼ်ပၼ် LLM ၼႆ လီလႆႈမီးလွင်ႈဢၼ်ပႅၵ်ႇလၢၵ်ႇ လႄႈမီးတၢင်းႁူႉၵႂၢင်ႈၶႂၢင် (covers a diverse range of topics and domains) မိူၼ်ၼင်ႇ ပိုၼ်း၊ တၢင်းႁူႉၵူႈလွင်ႈၵူႈပၢႆး ၸိူဝ်းၼၼ်ႉတေလီသေပိူၼ်ႈ၊ ၼႂ်းၶေႃႈမုၼ်းၸိူဝ်းၼႆႉ မီး wiki တႆးၸိူဝ်းၼႆႉယူႇသေတႃႉ ၵူၺ်းၽူႈတႅမ်ႈလိၵ်ႈပၼ် wiki ယင်းတိုၵ်ႉမီးဢေႇႁႅင်းတႄႉတႄႉ။

တူၺ်းႁူဝ်ယွႆႈၸုမ်ႇၶေႃႈမုၼ်း datasets ဢၼ်ၸႂ်ႉတိုဝ်းဝႆႉ လႄႈဢၼ်ႁႃႈလႆႈၼိူဝ် ဢိၼ်ႇတႃႇၼႅတ်ႉ ၵမ်ႈၽွင်ႈ

ၼႂ်းၸိူဝ်းၶေႃႈမုၼ်းဢၼ်မီးဝႆႉၼၼ်ႉ ၵမ်ႉၼမ် +90% ပဵၼ်ၶေႃႈမုၼ်းဢၼ်ပဵၼ် raw text ဢၼ်ပႆႇလႆႈႁဵတ်းၵၢၼ်သုၵ်ႈလၢင်ႉၶေႃႈမုၼ်း လႄႈၸၼ်ဢွၵ်ႇၼိူဝ်ႉၶေႃႈမုၼ်း (Data cleaning and extraction) မိူၼ်ၼင်ႇၶေႃႈမုၼ်းၼႂ်း wikipedia တေမီး meta data လၢႆလၢႆ ဢမ်ႇပႆႇမီးလွၼ်ႉလိူင်ႈၼႂ်းမၼ်း (မီးႁူဝ်ၶေႃႈလၢႆလၢႆ ပႆႇမီး contents)။

မႃးတူၺ်းၼႂ်းတူဝ်ယၢင်ႇၶေႃႈမုၼ်းၵမ်ႈၽွင်ႈ မၢင်ဢၼ်ၵေႃႈပဵၼ်ၶေႃႈမုၼ်းဢၼ်ၸႂ်ႉၼႂ်းၵၢၼ်သွၼ် LLM ဢၼ်မီးယူႇမၢင်တူဝ် မိူၼ် Llama ၸိူဝ်းၼႆႉ။

GlotCC-V1

glotcc-v1 ပဵၼ် multilanguage datasets ဢၼ်မီးတၢင်းယႂ်ႇ 2.38TB လႄႈမီးထႅဝ်ၶေႃႈမုၼ်းယူႇမွၵ်ႈ 1,280,740,722 rows ၼႂ်းၼၼ်ႉပႃးၶေႃႈမုၼ်းလိၵ်ႈတႆး 648 rows (0.00005%)

glotcc-v1

Wikipedia 20231101

ၼႂ်းၶေႃႈမုၼ်းပႃႈတႂ်ႈ wikipedia (2023/11/01) တင်းမူတ်းၵူႈၽႃႇသႃႇ မီးတၢင်းယႂ်ႇၶေႃႈမုၼ်း 71.8GB လႄႈမီးထႅဝ်ၶေႃႈမုၼ်းယူႇမွၵ်ႈ 61,614,907 rows ၼႂ်းၼၼ်ႉပႃးၶေႃႈမုၼ်းတီႈ shn.wikipedia.org ယူႇ 13,945 rows (0.023%)

shn.wikipedia.org

ၼႂ်းၶေႃႈမုၼ်း wikipedia ၽႃႇသႃႇတႆး 13,945 ႁူဝ်ၼၼ်ႉ မီးၼိူဝ်ႉၶေႃႈမုၼ်း လွၼ်ႉလိူင်ႈ ဢၼ်ၼပ်ႉတူဝ်လိၵ်ႈလႆႈၼမ်သေ 500 တူဝ်မီးယူႇ 1,613 ႁူဝ် ၵမ်ႉၼမ်တေမီးႁူဝ်ၼပ်ႉတူဝ်လိၵ်ႈယူႇ 300 - 400 တူဝ်။

wikipedia_content_length

xsimplusplus

glotcc-v1 ပဵၼ် Bitext multilanguage datasets ဢမ်ႇၼၼ် Parallel datasets ဢၼ်မီးတၢင်းယႂ်ႇ 1.18GB လႄႈမီးထႅဝ်ၶေႃႈမုၼ်းယူႇမွၵ်ႈ 815,654 rows ၼႂ်းၼၼ်ႉပႃးၶေႃႈမုၼ်းလိၵ်ႈတႆး 997 rows (0.12%)

xsimplusplus

NLLB (No Language Left Behind)

NLLB ပဵၼ်ၶူင်းၵၢၼ် research ၶွင် Meta (Facebook) ဢၼ်ပဵၼ်ၶေႃႈမုၼ်း Parallel datasets မီးတၢင်းယႂ်ႇၶေႃႈမုၼ်း ~450GB ၵမ်ႉၼမ်ပဵၼ်ၶေႃႈမုၼ်းဢၼ်လုၵ်ႉတီႈလိၵ်ႈ Bible မႃး မီးထႅဝ်ၶေႃႈမုၼ်းယူႇ 646,442 ထႅဝ်။

nllb

SIB200

sib200 ပဵၼ်ၶေႃႈမုၼ်း multilanguage topics classification မီးတၢင်းယႂ်ႇၶေႃႈမုၼ်း 33.8MB ထႅဝ်ၶေႃႈမုၼ်း 396,580 rows ပႃးဝႆႉလိၵ်ႈတႆး 701 rows (0.18%)

sib200

ထႅင်ႈပိူင်ၼိုင်ၵေႃႈ ၼႂ်းၶေႃႈမုၼ်းၸႃႉၼႄတူဝ်ယၢင်ႇမႃးၼႆႉ ပေႃးထတ်းတူၺ်းလီလီယဝ်ႉ တေႁၼ်ဝႃႈလၢႆလၢႆတီႈ လၢႆလၢႆဢၼ်ယင်းႁၼ်တီႈၽိတ်းတီႈပိူင်ႈၼမ် တူဝ်လေႃးလိၵ်ႈ၊ ပိၼ်ႇၽႃႇသႃႇၽိတ်း၊ တႅမ်ႈဢမ်ႇမိူၼ်ၵၼ်ၸိူဝ်းၼႆႉၵေႃႈမီးတင်းၼမ်။

ၼႆလႄႈၶေႃႈမုၼ်းၸိူဝ်းၼႆႉ တေလႆႈၶိုၼ်းမႄးထတ်းႁႂ်ႈလီလီယူႇ၊ လိူဝ်ၼၼ်ႉသမ်ႉ လၢႆးထတ်းသၢင်ၶေႃႈမုၼ်းလီ လၢႆးတႅပ်းတတ်းၵႃႈၶၼ်ၶေႃႈမုၼ်း (datasets evaluation) ၸိူဝ်းၼႆႉၵေႃႈဢမ်ႇပႆႇမီး ပႆႇမီးတီႈဢၢင်ႈဢိင်သင်။

တင်းၽိုၼ်ၶေႃႈမုၼ်းလႄႈ LLM models ၼင်ပဵၼ်ယူႇၼၼ်ႉ ႁဝ်းၵႃႈလႆႈပႆႉဢၼ်ၶွမ်ႇပၼီႇယႂ်ႇ ဢမ်ႇၼၼ် institute ၶဝ်ႁဵတ်းမႃးပႃး ၼင်ဢၼ်ႁၼ်ဝႃႈ ၶေႃႈမုၼ်းၵမ်ႉၼမ်ၽၢႆႇၼိူဝ်ၼၼ်ႉတေပဵၼ် Multilanguage ၼႆၵေႃႈ ပႃးမႃးတင်းလိၵ်ႈတႆးဢိတ်းဢွတ်း။

ဢၼ်ႁဝ်းၸၢင်ႈႁဵတ်းလႆႈငၢႆႈသေပိူၼ်ႈယၢမ်းလဵဝ်တႄႉ လႆႈၶတ်းၸႂ်ႁၢင်ႈႁႅၼ်း၊ ထတ်းထွင်၊ လႄႈႁဵတ်းႁႂ်ႈၶေႃႈမုၼ်းႁဝ်းၶႅမ်ႉလႅပ်ႈ ၸင်ႇသူင်ႇပၼ်တူင်ႇဝူင်း community ၸိူဝ်းၼၼ်ႉယဝ်ႉ။

ၶူင်းၵၢၼ်ဢၼ်တိုၵ်ႉႁဵတ်းသၢင်ႈဝႆႉယူႇ

လိုၼ်းသုတ်းၼႆႉပေႃးဝႃႈၽႂ်မီးၶၢဝ်းယၢမ်းတၼ်းသေၶႂ်ႈလဵပ်ႈႁဵၼ်း ၶႂ်ႈၶဝ်ႈၸွႆႈထႅမ်ၼႆ ၸၢင်ႈၶဝ်ႈၸွႆႈလႆႈၼႂ်းလၢႆလၢႆၶူင်းၵၢၼ် project

  • Mozilla Common Voice ဢၼ်ၼႆႉပဵၼ်ၶူင်းၵၢၼ်တႃႇၵဵပ်းၶေႃႈမုၼ်းသဵင် တႃႇၸႂ်ႉၼႂ်း Text-to-Speech ႁႂ်ႈထႅဝ်လိၵ်ႈၼၼ်ႉဢွၵ်ႇသဵင်မႃး ဢမ်ႇၼၼ် ႁႂ်ႈၶွမ်ႇၽိဝ်ႇတိူဝ်ႇၸၢင်ႈလၢတ်ႈဢွၵ်ႇသဵင်တႆး - မိူဝ်ႈလဵဝ်တိုၵ်ႉယူႇၼႂ်းၶၵ်ႉတွၼ်ႈပိၼ်ႇၽႃႇသႃႇဝႅပ်ႉသၢႆႉသ် ပေႃးယဝ်ႉၼႆႉၸိုင် ၸင်ႇၸၢင်ႈတႄႇၵဵပ်းၶေႃႈမုၼ်းသဵင်လႆႈ
  • General Shan Datasets ဢၼ်ၼႆႉတေပဵၼ်တီႈၵဵပ်းၸုမ်ႇၶေႃႈမုၼ်း (Datasets) မၢင်ဢၼ်ၵေႃႈလႆႈႁဵတ်းၵၢၼ်သုၵ်ႈလၢင်ႉၶေႃႈမုၼ်း (Dataset cleaning and preprocessing) ၵူၺ်းယင်းတိုၵ်ႉလူဝ်ၵူၼ်းထတ်းထွင်ၶေႃႈမုၼ်းယူႇတင်းၼမ်၊ ၶေႃႈမုၼ်းမၢင်ၸိူဝ်းဢၼ်ပဵၼ် Parallel Datasets လူဝ်ပိၼ်ၽႃႇသႃႇ English-Shan, Thai-Shan, Myanmar-Shan ၸိူဝ်းၼႆႉ လူဝ်ၽူႈပိၼ်ႇၽႃႇသႃႇ လႄႈၸွႆႈထတ်းၶေႃႈမုၼ်းပိၼ်ႇၽႃႇသႃႇ။
  • Books Datasets and non-digital datasets ၶေႃႈမုၼ်းၸိူဝ်းဢၼ်ပဵၼ်ပပ်ႉလိၵ်ႈလႄႈပႆႇလႆႈပေႃႉလူင်းၼႂ်းၶွမ်းၸိူဝ်းၼႆႉၵေႃႈ သင်ဝႃႈၽႂ်မီးလႄႈမီးၶၢဝ်းယၢမ်းတၼ်းၸိုင် ၸၢင်ႈပေႃႉလူင်းၼႂ်းၶွမ်းသေၵဵပ်းပၼ်ႁဝ်းၶႃႈၵေႃႈလႆႈယူႇ

Download: ၵႅမ်မိုဝ်း တႃႇၵဵပ်းႁွမ်ၶေႃႈမုၼ်း

ၵပ်းသိုပ်ႇလႆႈတီႈ