September 8, 2023
Facebook (Meta) NLLB ပဵၼ်ၶူင်းၵၢၼ် research ၶွင် Facebook ၸိုဝ်ႈမႂ်ႇ Meta ၶဝ် သိုပ်ႇၶူင်းၵၢၼ် research ဢၼ်ႁွင်ႉၸိုဝ်ႈဝႃႈ fairseq (Facebook AI Research) ဢၼ်တႄႇၶူင်းၵၢၼ်မႃးၸဵမ်မိူဝ်ႈပီ 2017၊ fairseq ပဵၼ်ၶူင်းၵၢၼ် research လွင်ႈ ai လၢႆလၢႆႁူဝ်ၶေႃႈဢၼ်ၵဵဝ်ႇလူၺ်ႈလွင်ႈၽႃႇသႃႇလိၵ်ႈလၢႆး လႄႈ NLP (Natural Language Processing) မိူၼ်ၼင်ႇ fasttext, Text-to-Speech, Speech-to-Text, ၸိူဝ်းၼႆႉ ၸုမ်းႁဝ်းႁႃး လႆႈၸၼ်ႁဵတ်း website မႃးပၼ်တႃႇၸၢမ်းတူၺ်း TTS လိၵ်ႈတႆးၵႂၢမ်းတႆးၼၼ်ႉၵေႃႈ လုၵ်ႉတီႈၶူင်းၵၢၼ် fairseq ၼႆႉမႃးယဝ်ႉၶႃႈ။
ဝၢႆးသေၶူင်းၵၢၼ် fairseq, fasttext တေႇၸႂ်ႉၵၢၼ်လႆႈမႃးၼၼ်ႉ ပီ 2017 ၼၼ်ႉၼင်ႇၵဝ်ႇ လွၵ်းလၢႆး AI/Deep Learning ဢၼ်မႂ်ႇ ဢၼ်ႁွင်ႉဝႃႈ Transformer ၼႆဢွၵ်ႇမႃး လႄႈၸႂ်ႉၵၢၼ်ၼႂ်း ၶၵ်ႉၵၢၼ် Machine Translation လႆႈလီလိူဝ်လွၵ်းလၢႆးၵဝ်ႇ မိူၼ် CNN, RNN ၶဝ်၊
Transformer ၼႆႉမီးၶေႃႈမုၼ်းဢႄႇသေတႃႉၵေႃႉမၼ်းႁဵတ်းၵၢၼ်လႆႈဝႃႈၸႂ်ႉလႆႈၼႆယူႇ၊
facebookresearch ၶဝ်ႁၼ်ဝႃႈ မၼ်းၸၢင်ႈၶႂၢၵ်ႈၵႂႃႇၸႂ်ႉၸွမ်းၸိူဝ်းၽႃႇသႃႇဢွၼ်ႇဢၼ်မီးၶေႃႈမုၼ်းတႃႇသွၼ်ပၼ် ai ၵႄႇ (Low resource language) ၶဝ်ၸင်ႇတေႇထႅင်ႈၶူင်းၵၢၼ်ဢၼ်ႁွင်ႉဝႃႈ NLLP (No Language Left Behind) ၼႂ်းပီ 2022 လႄႈဢမ်ႇႁိုင် July 2022 ၶဝ်ပွႆႇဢွၵ်ႇမႃး ai model NLLB-200 မိူၼ်ၼင်ႇ ၶိူင်ႈပိၼ်ႇၽႃႇသႃႇ Machine Translation ဢၼ်မီးပႃးလိၵ်ႈတႆးၼၼ်ႉယဝ်ႉၶႃႈ။
လွၵ်းလၢႆးၸၢမ်းၸႂ်ႉ Machine Translation (ၸၢႆးၸွမ်တႆး) -> https://saizomtai.hashnode.dev/english-to-shan-translation
ၸၢမ်းၸႂ်ႉ Text to Speech (ၸုမ်းႁဝ်းႁႃး) -> https://shantts-playground.haohaa.com/
ၶူင်းၵၢၼ် fairseq လႄႈ NLLB မီးၶူင်းၵၢၼ်ယွႆႈလႄႈဢၼ်လီသူၼ်ၸႂ်ထႅင်ႈတၢင်းၼမ် သိုပ်ႇတူၺ်း
fairseq -> https://github.com/facebookresearch/fairseq
NLLB -> https://github.com/facebookresearch/flores
ပွင်ႈၵႂၢမ်းဢၼ်ၼႆႉတေမႃးလဵပ်းႁဵၼ်းတူၺ်းဝႃႈ ၶဝ်ၸႂ်ႉလွၵ်းလၢႆးသင်၊ ဢဝ်ၶေႃႈမုၼ်းတီႈလႂ်မႃးသွၼ် AI ႁႂ်ႈႁူႉၸၵ်ႉလိၵ်ႈတႆးၵႂၢမ်းတႆးၼႆၶႃႈ။
ၶေႃႈမုၼ်းသဵင်လႄႈ script ဢၼ်ၸႂ်ႉတွၼ်ႈတႃႇႁဵတ်း Text-to-Speech ၼႂ်းၶူင်းၵၢၼ်ၼႆႉ ၵမ်ႈၼမ်ပဵၼ်းၶေႃႈမုၼ်းၽိုၼ်လိၵ်ႈ bible
As part of this project, we created a dataset of readings of the New Testament in over 1,100 languages, which provided on average 32 hours of data per language.
> - https://ai.meta.com/blog/multilingual-model-speech-recognition/
တူဝ်ယၢင်ႇၶေႃႈမုၼ်းၽႃႇသႃႇတႆး -> https://globalrecordings.net/en/language/shn
ၶေႃႈမုၼ်း bible ၸိူဝ်းၼႆႉတီႉဢတ်းသဵင်ဝႆႉၼပ်ႉႁူဝ်သိပ်းသၢဝ်းပီပူၼ်ႉမႃးယဝ်ႉ ၸၢမ်းထွမ်ႇတူၺ်းမၢင်ၶေႃႈၼႂ်းၶေႃႈမုၼ်းသဵင်ၸိူဝ်းၼၼ်ႉၵေႃႈ မၢင်ၶေႃႈမိူၼ်ၼင်ႇ "ၵၢင်ႁၢဝ်", "ၵင်ႁဝ်" ၸိူဝ်းၼႆႉၵေႃႈယင်းတိုၵ်ႉပိူင်ႈၵၼ်ဝႆႉလႄႈ တေႁၼ်ဝႃႈပေႃးၸၢမ်းၸႂ်ႉတူၺ်းၼႆသဵင်ဢၼ်ဢွၵ်ႇမႃးၼၼ်ႉတေဢမ်ႇၽဵၼ်ႈမိူၼ်ၵႂၢမ်းတႆးလူင်ဢၼ်ႁဝ်းၸႂ်ႉဝႆႉမိူဝ်ႈလဵဝ်
ထႅင်ႈပိူင်ၼိုင်ႈ ၵွပ်ႈဝႃႈၶေႃႈမုၼ်းသဵင်ဢၼ်ၸႂ်ႉဢမ်ႇၸႂ်ႈလၢႆးဢၼ်ႁဝ်းၸႂ်ႉတႃႇလၢတ်ႈတေႃႇၵၼ်ၵူႈဝၼ်းၼႆလႄႈ မၢင်ၶေႃႈ လမ်ႇၶိုၼ်ႈလူင်းၵေႃႈမၼ်းတေၶႆႈပိူင်ႈဝႆႉ။
ပေႃးၶႂ်ႈၸၢမ်း Train model တွၼ်ႈတႃႇ TTS ႁင်းၵူၺ်းၼႆ fairseq ၶဝ် open-source code လႄႈလွၵ်းလၢႆးတွၼ်ႈတႃႇ train ဝႆႉတီႈ github
minimum spec တွၼ်ႈတႃႇ computer ဢၼ်တေၸႂ်ႉ train
spec computer ၼႆႉဢိင်ၼိူဝ်ၶေႃႈမုၼ်းဢၼ်ႁဝ်းတေၸႂ်ႉ train ၼၼ်ႉ ပေႃးဝႃႈမီးၼမ်ၼႆၵေႃႈတေလႆႈမီး RAM ၼမ်ၼမ် ၵူၺ်းပေႃးၶေႃႈမုၼ်းဢမ်ႇမီးၼမ်ၼႆသမ်ႉ model ဢၼ်ဢွၵ်ႇမႃးၼၼ်ႉၵေႃႈ တေဢမ်ႇပေႃးၶိုၵ်ႉၶႅမ်ႉ
ၶေႃႈမုၼ်းဢၼ်ၸႂ်ႉ train Machine Translations ၼႆႉသမ်လူဝ်ႇပဵၼ်ၶေႃႈမုၼ်း Language-Pair သွင်ၽႃႇသႃႇ ပပ်ႉသပ်း Dictionary လႄႈ ၶိူင်ႈပိၼ်ႇၽႃႇသႃႇ Machine Translations
ၼႂ်း paper ၶဝ်ၼၼ်ႉၼႄႉၼမ်းဝႃႈပေႃးႁႂ်ႈလီတီႈသုၼ်းႁႂ်ႈမီးၶေႃႈမုၼ်း translations ၼႂ်း wikipedia ဢၼ်ႁွင်ႉဝႃႈ Wikipedia:List of articles all languages should have
ၽႃႇသႃႇတႆးႁဝ်းသမ်ႉတိုၵ်ႉပဵၼ် Very Low Resource လႄႈ ပွင်ႈၵႂၢမ်းၸိူဝ်းၼႆႉယင်းပႆႇမီးၸေး။
လွၵ်းလၢႆးထႅင်ႈဢၼ်ၼိုင်ႈၶဝ်ၸႂ်ႉတႃႇၽႃႇသႃႇ VLR ၼၼ်ႉၶဝ်ဝႃႈ
Then, we trace the development process of professionally-translated seed bitext data in 39 low-resource languages, giving us the ability to train any models that require parallel data
ၶဝ်ၸႂ်ႉၵူၼ်းသေပိၼ်ႇၽႃႇသႃႇ Language-Pair လိၵ်ႈဢိင်းၵရဵတ်ႈလႄႈၽႃႇသႃႇဢၼ်တေပိၼ်ႇ
တူဝ်ယၢင်ႇၶေႃႈမုၼ်းပိၼ်ႇၽႃႇသႃႇလူၺ်ႈၵူၼ်း ၼႂ်း NLLB-200-SEED
If you are doing these things, reveal yourself to the world."
ပေႃး မႂ်း ႁဵတ်း လွင်ႈတၢင်း ၸိူဝ်း ၼႆႉ ၸိုင်၊ၼႄပျႃး တူဝ်ၸဝ်ႈၵဝ်ႇ ထၢင်ႇထၢင်ႇသႃးသႃး ၵႃႈၼႂ်း လေႃးၵႃႉ ၼႆႉ တႃႉ၊" ဝႃႈ ၼင်ႇ ၼႆ ဢေႃႈ။
တေႁၼ်ပၼ်ႁႃဝႃႈၶေႃႈမုၼ်းၸိူဝ်းၼႆႉၶႆႈပႅၵ်ႇပိူင်ႈၵၼ်တင်းဢၼ်ႁဝ်းယၢမ်ႈႁၼ် ယၢမ်ႈယိၼ်းဝႆႉ ဢမ်ႇၼၼ်ၵေႃႈမၼ်းပိၼ်ႇဝႆႉဢမ်ႇထုၵ်ႇႁႃႉၼႆ။
ၶေႃႈမုၼ်းၸိူဝ်းၼႆႉတေႃႈၼင်ႇႁႂ်ႈႁဝ်းပိၼ်ႇၽႃႇသႃႇၼႆၵေႃႈ ႁဝ်းယင်းတေဢမ်ႇမေႃပိၼ်ႇလီလီလူးၵွၼ်ႇ ၵွပ်ႈမၢင်ၶေႃႈၼႆၵႂၢမ်းတႆးၵေႃႈယင်းပႆႇမီး။
"He went with her to look up the graves and, returning late, said,"
If we had not feared you would wait supper we would have stayed and been buried there.,2013 ၼၼ်ႉ ၶဝ်လူင်း ၵႂႃႇၼႂ်းဝၢၼ်ႈသေ ႁွင်ႉဢဝ်လုင်းႁဵင်မႂ်ႇ လုင်းမွင်းၺႃး လႄႈ လုင်းႁဵင်ၵဝ်ႇ လုင်းတူႉမၼ ဝၢၼ်ႈၼွင်လိူဝ်ႇသေ လၢတ်ႈဝႃႈ " သိုၵ်းတႆး မီးတီႈလႂ် တေလႆႈပွင်ႇၶၢဝ်ႇပၼ်ႁဝ်း ပေႃးဢမ်ႇပွင်ႇၶၢဝ်ႇလႄႈသဵင်ၵွင်ႈတႅၵ်ႇၼႆၸိုင် ယႃႇဝႃႈႁဝ်းမိူၵ်ႈ ပေႃးသိုၵ်းတႆး ယိုဝ်းႁဝ်းၶိုၼ်းတႄႉ ဝၢၼ်ႈသူ တေႁၢမ်း" ၼႆသေ ဢွၵ်ႇၵႂႃႇ ၸွမ်းထိူၼ်ႇ ၽၢႆႇဢွၵ်ႇဝၢၼ်ႈ ဝႃႈၼႆ။"
ပေႃးၶႂ်ႈၸၢမ်း Train model တွၼ်ႈတႃႇ Machine Translation ႁင်းၵူၺ်းၼႆ fairseq ၶဝ် open-source code လႄႈလွၵ်းလၢႆးတွၼ်ႈတႃႇ train ဝႆႉတီႈ documents
minimum spec တွၼ်ႈတႃႇ computer ဢၼ်တေၸႂ်ႉ train
Technical ၸိူဝ်းၼႆႉလူဝ်ႇလွင်ႈလူင်းတိုၼ်းလူင်းႁႅင်းတၢင်းၼမ် ႁဝ်းႁဵတ်းပႆႇလႆႈသေတႃႇၵေႃႈ မဵဝ်းၼိုင်ႈဢၼ်ႁဝ်းၸွႆႈၵၼ်လႆႈၵမ်းလဵဝ်ၼၼ်ႉ ပဵၼ်လွင်ႈပိၼ်ႇၽႃႇသႃႇၼႂ်း wikipedia ဢမ်ႇဝႃႈပဵၼ်ၽႃႇသႃႇလႂ်သေတႃႉ ႁႂ်ႈပေႃးမီးၶေႃႈမုၼ်းတႃႇၽႃႇသႃႇတႆးၼမ်ၼမ်ၶႃႈ။
English - Wikipedia:List of articles all languages should have
Myanmar - ဝီကီပီးဒီးယား:မြန်မာဝီကီတွင် ရှိသင့်သော ဆောင်းပါးမျာ
Thai - วิกิพีเดีย:รายการบทความที่วิกิพีเดียทุกภาษาควรมี
Chinese - 维基百科:基礎條目