Buckets:
| <meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"DeepSeek R1 Paper ကို နားလည်ခြင်း","local":"deepseek-r1-paper-က-နလညခင","sections":[{"title":"‘Aha’ Moment ဆိုတဲ့ ထူးခြားသော ရှာဖွေတွေ့ရှိမှု","local":"aha-moment-ဆတ-ထခသ-ရဖတရမ","sections":[],"depth":2},{"title":"Training လုပ်ငန်းစဉ်","local":"training-လပငနစဉ","sections":[{"title":"Cold Start Phase (အရည်အသွေးမြင့် အခြေခံ)","local":"cold-start-phase-အရညအသမင-အခခ","sections":[],"depth":3},{"title":"Reasoning RL Phase (စွမ်းရည်တည်ဆောက်ခြင်း)","local":"reasoning-rl-phase-စမရညတညဆကခင","sections":[],"depth":3},{"title":"Rejection Sampling Phase (အရည်အသွေး ထိန်းချုပ်ခြင်း)","local":"rejection-sampling-phase-အရညအသ-ထနခပခင","sections":[],"depth":3},{"title":"Diverse RL Phase (ကျယ်ပြန့်သော Alignment)","local":"diverse-rl-phase-ကယပနသ-alignment","sections":[],"depth":3}],"depth":2},{"title":"Algorithm: Group Relative Policy Optimization (GRPO)","local":"algorithm-group-relative-policy-optimization-grpo","sections":[{"title":"Group Formation: Multiple Solutions များကို ဖန်တီးခြင်း","local":"group-formation-multiple-solutions-မက-ဖနတခင","sections":[],"depth":3},{"title":"Preference Learning: ကောင်းမွန်သော Solution တစ်ခုကို ဖြစ်စေသည့်အရာကို နားလည်ခြင်း","local":"preference-learning-ကငမနသ-solution-တစခက-ဖစစသညအရက-နလညခင","sections":[],"depth":3},{"title":"Optimization: အတွေ့အကြုံကနေ သင်ယူခြင်း","local":"optimization-အတအကကန-သငယခင","sections":[],"depth":3},{"title":"Pseudocode ရှိ GRPO Algorithm","local":"pseudocode-ရ-grpo-algorithm","sections":[],"depth":3}],"depth":2},{"title":"ရလဒ်များနှင့် သက်ရောက်မှု","local":"ရလဒမနင-သကရကမ","sections":[],"depth":2},{"title":"GRPO ၏ ကန့်သတ်ချက်များနှင့် စိန်ခေါ်မှုများ","local":"grpo--ကနသတခကမနင-စနခမမ","sections":[],"depth":2},{"title":"နိဂုံးချုပ်","local":"နဂခပ","sections":[],"depth":2},{"title":"Quiz","local":"quiz","sections":[{"title":"၁။ DeepSeek R1 paper ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုက ဘာလဲ။","local":"၁-deepseek-r1-paper-ရ-အဓက-ဆနသစတထငမက-ဘလ","sections":[],"depth":3},{"title":"၂။ DeepSeek R1 training လုပ်ငန်းစဉ်ရဲ့ အဆင့်လေးဆင့်က ဘာတွေလဲ။","local":"၂-deepseek-r1-training-လပငနစဉရ-အဆငလဆငက-ဘတလ","sections":[],"depth":3},{"title":"၃။ R1-Zero ရဲ့ training မှာ ‘Aha Moment’ ဖြစ်ရပ်ဆိုတာ ဘာလဲ။","local":"၃-r1-zero-ရ-training-မ-aha-moment-ဖစရပဆတ-ဘလ","sections":[],"depth":3},{"title":"၄။ GRPO ရဲ့ group formation က ဘယ်လိုအလုပ်လုပ်လဲ။","local":"၄-grpo-ရ-group-formation-က-ဘယလအလပလပလ","sections":[],"depth":3},{"title":"၅။ DeepSeek-R1-Zero နဲ့ DeepSeek-R1 ကြား အဓိကကွာခြားချက်က ဘာလဲ။","local":"၅-deepseek-r1-zero-န-deepseek-r1-က-အဓကကခခကက-ဘလ","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"> | |
| <link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/30.87f2ae7b.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CodeBlock.abb4f40e.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Question.ea6d4cb0.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/stores.db603902.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"DeepSeek R1 Paper ကို နားလည်ခြင်း","local":"deepseek-r1-paper-က-နလညခင","sections":[{"title":"‘Aha’ Moment ဆိုတဲ့ ထူးခြားသော ရှာဖွေတွေ့ရှိမှု","local":"aha-moment-ဆတ-ထခသ-ရဖတရမ","sections":[],"depth":2},{"title":"Training လုပ်ငန်းစဉ်","local":"training-လပငနစဉ","sections":[{"title":"Cold Start Phase (အရည်အသွေးမြင့် အခြေခံ)","local":"cold-start-phase-အရညအသမင-အခခ","sections":[],"depth":3},{"title":"Reasoning RL Phase (စွမ်းရည်တည်ဆောက်ခြင်း)","local":"reasoning-rl-phase-စမရညတညဆကခင","sections":[],"depth":3},{"title":"Rejection Sampling Phase (အရည်အသွေး ထိန်းချုပ်ခြင်း)","local":"rejection-sampling-phase-အရညအသ-ထနခပခင","sections":[],"depth":3},{"title":"Diverse RL Phase (ကျယ်ပြန့်သော Alignment)","local":"diverse-rl-phase-ကယပနသ-alignment","sections":[],"depth":3}],"depth":2},{"title":"Algorithm: Group Relative Policy Optimization (GRPO)","local":"algorithm-group-relative-policy-optimization-grpo","sections":[{"title":"Group Formation: Multiple Solutions များကို ဖန်တီးခြင်း","local":"group-formation-multiple-solutions-မက-ဖနတခင","sections":[],"depth":3},{"title":"Preference Learning: ကောင်းမွန်သော Solution တစ်ခုကို ဖြစ်စေသည့်အရာကို နားလည်ခြင်း","local":"preference-learning-ကငမနသ-solution-တစခက-ဖစစသညအရက-နလညခင","sections":[],"depth":3},{"title":"Optimization: အတွေ့အကြုံကနေ သင်ယူခြင်း","local":"optimization-အတအကကန-သငယခင","sections":[],"depth":3},{"title":"Pseudocode ရှိ GRPO Algorithm","local":"pseudocode-ရ-grpo-algorithm","sections":[],"depth":3}],"depth":2},{"title":"ရလဒ်များနှင့် သက်ရောက်မှု","local":"ရလဒမနင-သကရကမ","sections":[],"depth":2},{"title":"GRPO ၏ ကန့်သတ်ချက်များနှင့် စိန်ခေါ်မှုများ","local":"grpo--ကနသတခကမနင-စနခမမ","sections":[],"depth":2},{"title":"နိဂုံးချုပ်","local":"နဂခပ","sections":[],"depth":2},{"title":"Quiz","local":"quiz","sections":[{"title":"၁။ DeepSeek R1 paper ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုက ဘာလဲ။","local":"၁-deepseek-r1-paper-ရ-အဓက-ဆနသစတထငမက-ဘလ","sections":[],"depth":3},{"title":"၂။ DeepSeek R1 training လုပ်ငန်းစဉ်ရဲ့ အဆင့်လေးဆင့်က ဘာတွေလဲ။","local":"၂-deepseek-r1-training-လပငနစဉရ-အဆငလဆငက-ဘတလ","sections":[],"depth":3},{"title":"၃။ R1-Zero ရဲ့ training မှာ ‘Aha Moment’ ဖြစ်ရပ်ဆိုတာ ဘာလဲ။","local":"၃-r1-zero-ရ-training-မ-aha-moment-ဖစရပဆတ-ဘလ","sections":[],"depth":3},{"title":"၄။ GRPO ရဲ့ group formation က ဘယ်လိုအလုပ်လုပ်လဲ။","local":"၄-grpo-ရ-group-formation-က-ဘယလအလပလပလ","sections":[],"depth":3},{"title":"၅။ DeepSeek-R1-Zero နဲ့ DeepSeek-R1 ကြား အဓိကကွာခြားချက်က ဘာလဲ။","local":"၅-deepseek-r1-zero-န-deepseek-r1-က-အဓကကခခကက-ဘလ","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="deepseek-r1-paper-က-နလညခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#deepseek-r1-paper-က-နလညခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>DeepSeek R1 Paper ကို နားလည်ခြင်း</span></h1> <p data-svelte-h="svelte-1743n8k">ဒီအခန်းက crash course paper reading တစ်ခု ဖြစ်ပါတယ်။ ကျွန်တော်တို့ paper ကို ရိုးရှင်းတဲ့ အသုံးအနှုန်းတွေနဲ့ ရှင်းပြသွားမှာဖြစ်ပြီး၊ အဓိက concepts တွေနဲ့ takeaways တွေကို ဖော်ထုတ်သွားမှာပါ။</p> <p data-svelte-h="svelte-1yyaqnw">DeepSeek R1 ဟာ language model training မှာ အရေးပါတဲ့ တိုးတက်မှုတစ်ခုကို ကိုယ်စားပြုပါတယ်။ အထူးသဖြင့် reinforcement learning ကနေ reasoning capabilities တွေ တည်ဆောက်ရာမှာ ဖြစ်ပါတယ်။ ဒီ paper က Group Relative Policy Optimization (GRPO) လို့ခေါ်တဲ့ reinforcement learning algorithm အသစ်တစ်ခုကို မိတ်ဆက်ထားပါတယ်။</p> <p data-svelte-h="svelte-twqc21"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/4.png" alt="DeepSeek R1 Overview"></p> <p data-svelte-h="svelte-98lu73">နောက်အခန်းမှာ၊ ဒီဗဟုသုတကို ဆက်လက်တည်ဆောက်ပြီး GRPO ကို လက်တွေ့အကောင်အထည်ဖော်သွားမှာပါ။</p> <p data-svelte-h="svelte-psw825">paper ရဲ့ အစပိုင်းရည်ရွယ်ချက်ကတော့ pure reinforcement learning က supervised fine-tuning မပါဘဲ reasoning capabilities တွေ တည်ဆောက်နိုင်သလားဆိုတာကို လေ့လာဖို့ပဲ ဖြစ်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-axqu6m"><p>အဲဒီအချိန်အထိ၊ လူကြိုက်များတဲ့ LLMs အားလုံးက supervised fine-tuning တစ်ချို့ လိုအပ်ခဲ့ပါတယ်။ ဒါကို ကျွန်တော်တို့ <a href="/course/chapter11/1">chapter 11</a> မှာ လေ့လာခဲ့ပါတယ်။</p></blockquote> <h2 class="relative group"><a id="aha-moment-ဆတ-ထခသ-ရဖတရမ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#aha-moment-ဆတ-ထခသ-ရဖတရမ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>‘Aha’ Moment ဆိုတဲ့ ထူးခြားသော ရှာဖွေတွေ့ရှိမှု</span></h2> <p data-svelte-h="svelte-1xpbuvl"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/9.png" alt="The 'Aha Moment'"></p> <p data-svelte-h="svelte-12w76wh">R1-Zero ရဲ့ training မှာ အထူးခြားဆုံး ရှာဖွေတွေ့ရှိမှုတွေထဲက တစ်ခုက “Aha Moment” လို့ခေါ်တဲ့ ဖြစ်ရပ်တစ်ခု ပေါ်ပေါက်လာတာပဲ ဖြစ်ပါတယ်။ ဒီဖြစ်ရပ်က လူသားတွေ ပြဿနာဖြေရှင်းနေစဉ် ရုတ်တရက် နားလည်သွားတာနဲ့ အနည်းငယ် ဆင်တူပါတယ်။ ဒါက ဘယ်လိုအလုပ်လုပ်လဲဆိုတော့…</p> <p data-svelte-h="svelte-1jkb5im">၁။ စတင်ကြိုးစားခြင်း (Initial Attempt): model က ပြဿနာတစ်ခုကို ဖြေရှင်းဖို့ စတင်ကြိုးစားပါတယ်။ | |
| ၂။ အသိအမှတ်ပြုခြင်း (Recognition): ဖြစ်နိုင်ချေရှိတဲ့ အမှားတွေ ဒါမှမဟုတ် မကိုက်ညီမှုတွေကို model က အသိအမှတ်ပြုပါတယ်။ | |
| ၃။ ကိုယ်တိုင်ပြင်ဆင်ခြင်း (Self-Correction): ဒီအသိအမှတ်ပြုမှုအပေါ် အခြေခံပြီး model က ၎င်းရဲ့ ချဉ်းကပ်ပုံကို ပြင်ဆင်ပါတယ်။ | |
| ၄။ ရှင်းပြခြင်း (Explanation): ချဉ်းကပ်ပုံအသစ်က ဘာကြောင့် ပိုကောင်းတယ်ဆိုတာကို model က ရှင်းပြနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-nlxcfs">ဒီထူးခြားတဲ့ ရှာဖွေတွေ့ရှိမှုက သင်ယူသူတွေနဲ့ ရင်ဆိုင်ရပြီး “Eureka” moment တစ်ခုလို ခံစားရပါတယ်။ ဒါက ရိုးရှင်းစွာ မှတ်သားထားတာထက် သင်ယူမှုကို ပြသတာဖြစ်တဲ့အတွက်၊ “Aha” moment တစ်ခုရရှိတာက ဘယ်လိုခံစားရလဲဆိုတာ ခဏလေး စဉ်းစားကြည့်ရအောင်။</p> <p data-svelte-h="svelte-1gipth6">ဥပမာ၊ သင် puzzle တစ်ခုကို ဖြေရှင်းဖို့ ကြိုးစားနေတယ်လို့ စိတ်ကူးကြည့်ပါ။</p> <ul data-svelte-h="svelte-fonhw6"><li>ပထမကြိုးစားမှု: “ဒီအပိုင်းကို အရောင်ပေါ် မူတည်ပြီး ဒီနေရာမှာ ထားသင့်တယ်”</li> <li>အသိအမှတ်ပြုခြင်း: “ဒါပေမယ့် ခဏ၊ ပုံစံက အတိအကျ မကိုက်ဘူး”</li> <li>ပြင်ဆင်ခြင်း: “အော်၊ ဒါက ဟိုဘက်မှာ တကယ်တော့ ရှိနေတာ”</li> <li>ရှင်းပြခြင်း: “ဘာလို့လဲဆိုတော့ အရောင်နဲ့ ပုံသဏ္ဍာန် နှစ်ခုလုံးက ဒီနေရာမှာ ကိုက်ညီလို့ပါ”</li></ul> <p data-svelte-h="svelte-1uxvcgt">ဒီစွမ်းရည်က RL training ကနေ သဘာဝအတိုင်း ပေါ်ပေါက်လာတာဖြစ်ပြီး၊ ရှင်းလင်းစွာ program ရေးဆွဲထားခြင်းမရှိဘဲ၊ training data ကနေ လုပ်ငန်းစဉ်တစ်ခုကို ရိုးရှင်းစွာ မှတ်သားထားတာထက် သင်ယူမှုကို ပြသပါတယ်။</p> <p data-svelte-h="svelte-1jtjcna">‘Aha’ moment ကို နားလည်ဖို့ အလွယ်ကူဆုံးနည်းလမ်းကတော့ အဲဒါကို လက်တွေ့လုပ်ဆောင်နေတာကို မြင်တွေ့ရခြင်းပါပဲ။ ဥပမာတစ်ခုကို ကြည့်ကြရအောင်။ အောက်ပါ chat မှာ၊ ကျွန်တော်တို့ model ကို ပြဿနာတစ်ခု ဖြေရှင်းခိုင်းပြီး UI က ပြဿနာကို ဖြေရှင်းနေစဉ် model ရဲ့ တွေးခေါ်ပုံကို ပြသပါတယ်။</p> <iframe src="https://reasoning-course-deepseek-ai-deepseek-r1-distill-0f5fad4.hf.space/" frameborder="0" width="850" height="450"></iframe> <p data-svelte-h="svelte-13falad">Deepseek’s R1 ကို စမ်းသပ်ချင်တယ်ဆိုရင် <a href="https://huggingface.co/chat/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B" rel="nofollow">Hugging Chat</a> ကိုလည်း ကြည့်ရှုနိုင်ပါတယ်။</p> <h2 class="relative group"><a id="training-လပငနစဉ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#training-လပငနစဉ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training လုပ်ငန်းစဉ်</span></h2> <p data-svelte-h="svelte-1lrvp0h">R1 ကို train လုပ်တာဟာ အဆင့်များစွာပါဝင်တဲ့ လုပ်ငန်းစဉ်တစ်ခု ဖြစ်ပါတယ်။ အဆင့်တစ်ခုစီရှိ အဓိက ဆန်းသစ်တီထွင်မှုတွေနဲ့ အဆင့်တွေကို ခွဲခြမ်းကြည့်ရအောင်။</p> <p data-svelte-h="svelte-1i18jn4">နောက်ဆုံးလုပ်ငန်းစဉ်က models နှစ်ခုကို ဖြစ်ပေါ်စေပါတယ်။</p> <ul data-svelte-h="svelte-pejc9r"><li>DeepSeek-R1-Zero: reinforcement learning သီးသန့်အသုံးပြုပြီး train လုပ်ထားတဲ့ model တစ်ခု။</li> <li>DeepSeek-R1: DeepSeek-R1-Zero ရဲ့ အခြေခံအပေါ် တည်ဆောက်ထားပြီး supervised fine-tuning ထပ်ပေါင်းထားတဲ့ model တစ်ခု။</li></ul> <table data-svelte-h="svelte-1koosbs"><thead><tr><th>Feature</th> <th>DeepSeek-R1-Zero</th> <th>DeepSeek-R1</th></tr></thead> <tbody><tr><td>Training Approach</td> <td>Pure RL</td> <td>Multi-phase (SFT + RL)</td></tr> <tr><td>Fine-tuning</td> <td>None</td> <td>Supervised fine-tuning</td></tr> <tr><td>Reasoning Capability</td> <td>Emergent</td> <td>Enhanced</td></tr> <tr><td>AIME Performance</td> <td>71.0%</td> <td>79.8%</td></tr> <tr><td>Key Characteristics</td> <td>Strong reasoning but readability issues</td> <td>Better language consistency and readability</td></tr></tbody></table> <p data-svelte-h="svelte-6oyfp4">DeepSeek-R1-Zero က reasoning capabilities တွေ တည်ဆောက်ဖို့အတွက် pure reinforcement learning ရဲ့ အလားအလာကို ပြသခဲ့ပေမယ့်၊ DeepSeek-R1 ကတော့ reasoning performance နဲ့ usability နှစ်ခုလုံးကို ဦးစားပေးတဲ့ ပိုမိုမျှတတဲ့ ချဉ်းကပ်ပုံနဲ့ ဒီအခြေခံအပေါ်မှာ တည်ဆောက်ထားပါတယ်။</p> <p data-svelte-h="svelte-2zstww">training လုပ်ငန်းစဉ်မှာ အဆင့်လေးဆင့် ပါဝင်ပါတယ်…</p> <p data-svelte-h="svelte-bjodww">၁။ Cold Start Phase | |
| ၂။ Reasoning RL Phase | |
| ၃။ Rejection Sampling Phase | |
| ၄။ Diverse RL Phase</p> <p data-svelte-h="svelte-1rh4odo">အဆင့်တစ်ခုစီကို ခွဲခြမ်းကြည့်ရအောင်…</p> <h3 class="relative group"><a id="cold-start-phase-အရညအသမင-အခခ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#cold-start-phase-အရညအသမင-အခခ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Cold Start Phase (အရည်အသွေးမြင့် အခြေခံ)</span></h3> <p data-svelte-h="svelte-6lbybj"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/5.png" alt="Cold Start Phase"></p> <p data-svelte-h="svelte-1hlfaba">ဒီအဆင့်ကို model ရဲ့ readability နဲ့ response quality အတွက် ခိုင်မာတဲ့ အခြေခံတစ်ခု ထူထောင်ဖို့ ဒီဇိုင်းထုတ်ထားပါတယ်။ ဒါက V3-Base model ကို fine-tune လုပ်ဖို့ R1-Zero ကနေ high-quality samples တွေရဲ့ သေးငယ်တဲ့ dataset တစ်ခုကို အသုံးပြုပါတယ်။ DeepSeek-V3-Base model ကနေ စတင်ပြီး၊ အဖွဲ့က supervised fine-tuning အတွက် R1-Zero ကနေ ထောင်ပေါင်းများစွာသော validated, high-quality samples တွေကို အသုံးပြုခဲ့ပါတယ်။ ဒီဆန်းသစ်တဲ့ ချဉ်းကပ်ပုံက ခိုင်မာတဲ့ baseline readability နဲ့ response quality ကို ထူထောင်ဖို့အတွက် သေးငယ်ပေမယ့် အရည်အသွေးမြင့်တဲ့ dataset တစ်ခုကို အသုံးပြုပါတယ်။</p> <h3 class="relative group"><a id="reasoning-rl-phase-စမရညတညဆကခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#reasoning-rl-phase-စမရညတညဆကခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reasoning RL Phase (စွမ်းရည်တည်ဆောက်ခြင်း)</span></h3> <p data-svelte-h="svelte-1n73fn0"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/6.png" alt="Reasoning RL Phase"></p> <p data-svelte-h="svelte-b0hbjh">Reasoning RL Phase က mathematics, coding, science, logic အပါအဝင် domains များစွာမှာ အဓိက reasoning capabilities တွေ တည်ဆောက်ဖို့ အာရုံစိုက်ပါတယ်။ ဒီအဆင့်က rule-based reinforcement learning ကို အသုံးပြုပြီး၊ rewards တွေကို solution correctness နဲ့ တိုက်ရိုက်ချိတ်ဆက်ထားပါတယ်။</p> <p data-svelte-h="svelte-1ng15wq">အရေးကြီးတာက၊ ဒီအဆင့်မှာရှိတဲ့ tasks အားလုံးက ‘verifiable’ ဖြစ်တဲ့အတွက် model ရဲ့ အဖြေက မှန်လား မမှန်လား စစ်ဆေးနိုင်ပါတယ်။ ဥပမာ၊ mathematics ကိစ္စမှာ၊ model ရဲ့ အဖြေက မှန်လား မမှန်လားဆိုတာ mathematical solver တစ်ခု အသုံးပြုပြီး စစ်ဆေးနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-1lzx09">ဒီအဆင့်ကို အထူးဆန်းသစ်စေတာကတော့ ၎င်းရဲ့ direct optimization ချဉ်းကပ်ပုံပါပဲ။ ဒါက သီးခြား reward model တစ်ခု လိုအပ်တာကို ဖယ်ရှားပေးပြီး training လုပ်ငန်းစဉ်ကို ရိုးရှင်းစေပါတယ်။</p> <h3 class="relative group"><a id="rejection-sampling-phase-အရညအသ-ထနခပခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#rejection-sampling-phase-အရညအသ-ထနခပခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Rejection Sampling Phase (အရည်အသွေး ထိန်းချုပ်ခြင်း)</span></h3> <p data-svelte-h="svelte-17yoxfz"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/7.png" alt="Rejection Sampling Phase"></p> <p data-svelte-h="svelte-1vscmc">Rejection Sampling Phase အတွင်းမှာ၊ model က samples တွေကို ထုတ်လုပ်ပြီး အဲဒါတွေကို quality control လုပ်ငန်းစဉ်ကနေ စစ်ထုတ်ပါတယ်။ DeepSeek-V3 က quality judge အဖြစ် ဆောင်ရွက်ပြီး၊ pure reasoning tasks တွေထက် ကျော်လွန်တဲ့ ကျယ်ပြန့်တဲ့ scope တစ်လျှောက် output တွေကို အကဲဖြတ်ပါတယ်။ ထို့နောက် စစ်ထုတ်ထားတဲ့ data တွေကို supervised fine-tuning အတွက် အသုံးပြုပါတယ်။ ဒီအဆင့်ရဲ့ ဆန်းသစ်တီထွင်မှုကတော့ high-standard output တွေ သေချာစေဖို့အတွက် multiple quality signals တွေကို ပေါင်းစပ်နိုင်စွမ်းမှာ တည်ရှိပါတယ်။</p> <h3 class="relative group"><a id="diverse-rl-phase-ကယပနသ-alignment" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#diverse-rl-phase-ကယပနသ-alignment"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Diverse RL Phase (ကျယ်ပြန့်သော Alignment)</span></h3> <p data-svelte-h="svelte-wb3g6q"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/8.png" alt="Diverse RL Phase"></p> <p data-svelte-h="svelte-2eitxg">နောက်ဆုံး Diverse RL Phase က ခေတ်မီ hybrid ချဉ်းကပ်ပုံကို အသုံးပြုပြီး multiple task types တွေကို ကိုင်တွယ်ဖြေရှင်းပါတယ်။ deterministic tasks တွေအတွက်၊ ဒါက rule-based rewards တွေကို အသုံးပြုပြီး၊ subjective tasks တွေကို LLM feedback မှတစ်ဆင့် အကဲဖြတ်ပါတယ်။ ဒီအဆင့်က rule-based systems တွေရဲ့ တိကျမှုနဲ့ language model evaluation ရဲ့ ပြောင်းလွယ်ပြင်လွယ်မှုတို့ကို ပေါင်းစပ်ထားတဲ့ ၎င်းရဲ့ ဆန်းသစ်တဲ့ hybrid reward ချဉ်းကပ်ပုံမှတစ်ဆင့် human preference alignment ကို ရရှိရန် ရည်ရွယ်ပါတယ်။</p> <h2 class="relative group"><a id="algorithm-group-relative-policy-optimization-grpo" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#algorithm-group-relative-policy-optimization-grpo"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Algorithm: Group Relative Policy Optimization (GRPO)</span></h2> <p data-svelte-h="svelte-xj7u33">training လုပ်ငန်းစဉ်ကို ကောင်းကောင်းနားလည်ပြီဆိုတော့၊ model ကို train လုပ်ရာမှာ အသုံးပြုခဲ့တဲ့ algorithm ကို ကြည့်ကြရအောင်။</p> <p data-svelte-h="svelte-1e93qya">စာရေးဆရာတွေက GRPO ကို model fine-tuning မှာ breakthrough တစ်ခုအဖြစ် ဖော်ပြပါတယ်။</p> <p data-svelte-h="svelte-1w1t5mr"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/10.png" alt="GRPO Process"></p> <p data-svelte-h="svelte-8qpkhw">GRPO ရဲ့ ထူးခြားမှုကတော့ “preference rectification အတွက် တိုက်ရိုက် optimize လုပ်နိုင်စွမ်း” မှာ တည်ရှိပါတယ်။ ဒါက PPO လို traditional Reinforcement Learning algorithms တွေနဲ့ နှိုင်းယှဉ်ရင် model ကို လိုချင်တဲ့ output တွေနဲ့ ချိန်ညှိဖို့ ပိုမိုတိုက်ရိုက်ပြီး ထိရောက်တဲ့ လမ်းကြောင်းတစ်ခုကို ဆိုလိုပါတယ်။ GRPO က ၎င်းရဲ့ အဓိက အစိတ်အပိုင်းသုံးခုကနေ ဘယ်လိုအလုပ်လုပ်လဲဆိုတာကို ခွဲခြမ်းကြည့်ရအောင်။</p> <h3 class="relative group"><a id="group-formation-multiple-solutions-မက-ဖနတခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#group-formation-multiple-solutions-မက-ဖနတခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Group Formation: Multiple Solutions များကို ဖန်တီးခြင်း</span></h3> <p data-svelte-h="svelte-p3zm48">GRPO ရဲ့ ပထမအဆင့်က အလိုလိုသိနိုင်ပါတယ်။ ဒါဟာ ကျောင်းသားတစ်ဦးက ပြဿနာခက်တစ်ခုကို နည်းလမ်းများစွာနဲ့ ဖြေရှင်းဖို့ ကြိုးစားတာနဲ့ ဆင်တူပါတယ်။ prompt တစ်ခု ပေးတဲ့အခါ၊ model က response တစ်ခုတည်းကိုပဲ ထုတ်ပေးတာ မဟုတ်ပါဘူး၊ အဲဒီအစား ပြဿနာတူတူကို ဖြေရှင်းဖို့အတွက် ကြိုးစားမှုများစွာ (များသောအားဖြင့် ၄၊ ၈၊ သို့မဟုတ် ၁၆ ခု) ကို ဖန်တီးပါတယ်။</p> <p data-svelte-h="svelte-1cp1myh">သင် model တစ်ခုကို သင်္ချာပြဿနာတွေ ဖြေရှင်းဖို့ သင်ပေးနေတယ်လို့ စိတ်ကူးကြည့်ပါ။ လယ်တစ်ခုမှာ ကြက်တွေရေတွက်တာနဲ့ ပတ်သက်တဲ့ မေးခွန်းတစ်ခုအတွက် model က မတူညီတဲ့ solution အများအပြားကို ထုတ်ပေးနိုင်ပါတယ်။</p> <ul data-svelte-h="svelte-1ackt9u"><li>solution တစ်ခုက ပြဿနာကို တစ်ဆင့်ချင်းစီ ခွဲခြမ်းနိုင်ပါတယ်- ပထမဆုံး ကြက်စုစုပေါင်းကို ရေတွက်၊ ပြီးတော့ ကြက်ဖတွေကို နုတ်၊ နောက်ဆုံးမှာ ဥမဥတဲ့ ကြက်မတွေကို ထည့်သွင်းစဉ်းစားပါတယ်။</li> <li>နောက်တစ်ခုက မတူညီပေမယ့် တူညီစွာ မှန်ကန်တဲ့ ချဉ်းကပ်ပုံကို အသုံးပြုနိုင်ပါတယ်။</li> <li>အချို့သော ကြိုးစားမှုတွေမှာ အမှားတွေ ဒါမှမဟုတ် ထိရောက်မှုနည်းတဲ့ solution တွေ ပါဝင်နိုင်ပါတယ်။</li></ul> <p data-svelte-h="svelte-1uihret">ဒီကြိုးစားမှုအားလုံးကို အုပ်စုတစ်ခုအဖြစ် စုစည်းထားပါတယ်။ ဒါဟာ ကျောင်းသားများစွာရဲ့ solution တွေကို နှိုင်းယှဉ်ပြီး သင်ယူတာနဲ့ အတူတူပါပဲ။</p> <p data-svelte-h="svelte-149l4cn"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/11.jpg" alt="Group Formation"></p> <h3 class="relative group"><a id="preference-learning-ကငမနသ-solution-တစခက-ဖစစသညအရက-နလညခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#preference-learning-ကငမနသ-solution-တစခက-ဖစစသညအရက-နလညခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Preference Learning: ကောင်းမွန်သော Solution တစ်ခုကို ဖြစ်စေသည့်အရာကို နားလည်ခြင်း</span></h3> <p data-svelte-h="svelte-1ioa1dq">ဒီနေရာက GRPO ဟာ ၎င်းရဲ့ ရိုးရှင်းမှုမှာ တကယ်ထူးခြားပါတယ်။ solution တစ်ခု ဘယ်လောက်ကောင်းနိုင်သလဲဆိုတာ ခန့်မှန်းဖို့အတွက် သီးခြား reward model တစ်ခု အမြဲတမ်းလိုအပ်တဲ့ RLHF အတွက် အခြားနည်းလမ်းတွေနဲ့ မတူဘဲ၊ GRPO က solution တစ်ခုရဲ့ အရည်အသွေးကို အကဲဖြတ်ဖို့ ဘယ် function ဒါမှမဟုတ် model ကိုမဆို အသုံးပြုနိုင်ပါတယ်။ ဥပမာ၊ ပိုတိုတဲ့ response တွေကို reward ပေးဖို့ length function တစ်ခုကို ဒါမှမဟုတ် မှန်ကန်တဲ့ သင်္ချာ solution တွေကို reward ပေးဖို့ mathematical solver တစ်ခုကို အသုံးပြုနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-1ehccl5">evaluation လုပ်ငန်းစဉ်က solution တစ်ခုစီရဲ့ ကဏ္ဍအမျိုးမျိုးကို ကြည့်ရှုပါတယ်။</p> <ul data-svelte-h="svelte-1ve1s20"><li>နောက်ဆုံးအဖြေက မှန်ကန်ရဲ့လား။</li> <li>solution က မှန်ကန်တဲ့ formatting (ဥပမာ- မှန်ကန်တဲ့ XML tags တွေ အသုံးပြုခြင်း) ကို လိုက်နာခဲ့ရဲ့လား။</li> <li>reasoning က ပေးထားတဲ့ အဖြေနဲ့ ကိုက်ညီရဲ့လား။</li></ul> <p data-svelte-h="svelte-o8fb4l">ဒီချဉ်းကပ်ပုံကို အထူး clever ဖြစ်စေတာကတော့ အမှတ်ပေးပုံကို ကိုင်တွယ်ပုံပါပဲ။ absolute scores တွေပဲ ပေးမယ့်အစား၊ GRPO က အုပ်စုတစ်ခုစီအတွင်း rewards တွေကို normalize လုပ်ပါတယ်။ ဒါက group relative advantage estimation အတွက် ရိုးရှင်းပေမယ့် ထိရောက်တဲ့ formula ကို အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-variable">Advantage</span> = (<span class="hljs-variable">reward</span> - <span class="hljs-function"><span class="hljs-title">mean</span>(<span class="hljs-variable">group_rewards</span>)) / <span class="hljs-title">std</span>(<span class="hljs-variable">group_rewards</span>)</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-163dfc7"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/12.jpg" alt="Preference Learning"></p> <p data-svelte-h="svelte-172hp99">ဒီ normalization က AI အတွက် grading on a curve နဲ့ ဆင်တူပါတယ်။ ဒါက model ကို အုပ်စုအတွင်း ဘယ် solution တွေက သူတို့ရဲ့ ရွယ်တူတွေနဲ့ နှိုင်းယှဉ်ရင် ပိုကောင်းလဲ ဒါမှမဟုတ် ပိုဆိုးလဲဆိုတာ နားလည်စေပြီး absolute scores တွေကိုပဲ ကြည့်တာထက် ပိုကောင်းပါတယ်။</p> <h3 class="relative group"><a id="optimization-အတအကကန-သငယခင" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#optimization-အတအကကန-သငယခင"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Optimization: အတွေ့အကြုံကနေ သင်ယူခြင်း</span></h3> <p data-svelte-h="svelte-1pd80f3">နောက်ဆုံးအဆင့်က GRPO က model ကို solution အုပ်စုကို အကဲဖြတ်ရာကနေ သင်ယူခဲ့တာတွေအပေါ် အခြေခံပြီး ဘယ်လိုတိုးတက်အောင် သင်ပေးလဲဆိုတာပါပဲ။ ဒီလုပ်ငန်းစဉ်က အစွမ်းထက်ပြီး တည်ငြိမ်မှုရှိပြီး၊ အဓိက နိယာမနှစ်ခုကို အသုံးပြုပါတယ်။</p> <p data-svelte-h="svelte-1pcmgx7">၁။ model ကို အောင်မြင်တဲ့ solution တွေလိုမျိုး ပိုမိုထုတ်လုပ်ဖို့ တိုက်တွန်းပြီး ထိရောက်မှုနည်းတဲ့ ချဉ်းကပ်ပုံတွေကနေ ဝေးရာကို ရွေ့လျားစေပါတယ်။ | |
| ၂။ model ကို တစ်ပြိုင်နက်တည်း အလွန်အမင်း ပြောင်းလဲမသွားအောင် ကာကွယ်ပေးတဲ့ safety mechanism (KL divergence penalty လို့ခေါ်တယ်) တစ်ခု ပါဝင်ပါတယ်။</p> <p data-svelte-h="svelte-1tx0kb0">ဒီချဉ်းကပ်ပုံက traditional methods တွေထက် ပိုမိုတည်ငြိမ်တယ်ဆိုတာ သက်သေပြပါတယ် ဘာလို့လဲဆိုတော့-</p> <ul data-svelte-h="svelte-10zhmd"><li>ဒါက solution များစွာကို တစ်ပြိုင်နက်တည်း ကြည့်ရှုပြီး နှစ်ခုတည်းကို နှိုင်းယှဉ်တာထက် ပိုကောင်းပါတယ်။</li> <li>group-based normalization က reward scaling ပြဿနာတွေကို ကာကွယ်ပေးပါတယ်။</li> <li>KL penalty က safety net တစ်ခုလို လုပ်ဆောင်ပြီး model ကို အသစ်သင်ယူနေစဉ် ရှိပြီးသား အသိပညာတွေကို မမေ့အောင် သေချာစေပါတယ်။</li></ul> <blockquote class="tip" data-svelte-h="svelte-z3sais"><p>GRPO ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုတွေက…</p> <ul><li>သီးခြား reward model တစ်ခုအပေါ် မှီခိုအားထားခြင်းမရှိဘဲ မည်သည့် function သို့မဟုတ် model မှမဆို တိုက်ရိုက်သင်ယူခြင်း။</li> <li>group-based learning၊ ဒါက pairwise comparisons လို traditional methods တွေထက် ပိုမိုတည်ငြိမ်ပြီး ထိရောက်ပါတယ်။</li></ul></blockquote> <p data-svelte-h="svelte-k0odcy">ဒီခွဲခြမ်းစိတ်ဖြာမှုက ရှုပ်ထွေးပေမယ့်၊ အဓိက takeaway ကတော့ GRPO ဟာ model တစ်ခုကို reasoning လုပ်နိုင်အောင် train လုပ်ဖို့ ပိုမိုထိရောက်ပြီး တည်ငြိမ်တဲ့ နည်းလမ်းတစ်ခုပါပဲ။</p> <h3 class="relative group"><a id="pseudocode-ရ-grpo-algorithm" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#pseudocode-ရ-grpo-algorithm"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Pseudocode ရှိ GRPO Algorithm</span></h3> <p data-svelte-h="svelte-1vtjtgt">အခု GRPO ရဲ့ အဓိက အစိတ်အပိုင်းတွေကို နားလည်ပြီဆိုတော့၊ pseudocode ရှိ algorithm ကို ကြည့်ကြရအောင်။ ဒါက algorithm ရဲ့ ရိုးရှင်းတဲ့ version တစ်ခုဖြစ်ပေမယ့် အဓိက အချက်အလက်တွေကို ဖော်ပြထားပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-attribute">Input</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-bullet">-</span> <span class="hljs-string">initial_policy: Train လုပ်မယ့် model ကို စတင်ပါ။</span> | |
| <span class="hljs-bullet">-</span> <span class="hljs-string">reward_function: Outputs တွေကို အကဲဖြတ်တဲ့ Function။</span> | |
| <span class="hljs-bullet">-</span> <span class="hljs-string">training_prompts: Training examples တွေရဲ့ အစုအဝေး။</span> | |
| <span class="hljs-bullet">-</span> <span class="hljs-string">group_size: prompt တစ်ခုစီအတွက် outputs အရေအတွက် (များသောအားဖြင့် 4-16)။</span> | |
| <span class="hljs-attribute">Algorithm GRPO</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-attribute">1. Training iteration တစ်ခုစီအတွက်</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-attribute">a. reference_policy = initial_policy ကို သတ်မှတ်ပါ (လက်ရှိ policy ကို snapshot လုပ်ပါ) | |
| b. batch ထဲက prompt တစ်ခုစီအတွက်</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-attribute">i. initial_policy ကို အသုံးပြုပြီး group_size မတူညီတဲ့ outputs တွေ ထုတ်လုပ်ပါ။ | |
| ii. reward_function ကို အသုံးပြုပြီး output တစ်ခုစီအတွက် rewards တွေ တွက်ချက်ပါ။ | |
| iii. အုပ်စုအတွင်း rewards တွေကို normalize လုပ်ပါ</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-attribute">normalized_advantage = (reward - mean(rewards)) / std(rewards) | |
| iv. clipped ratio ကို အမြင့်ဆုံးမြှင့်တင်ခြင်းဖြင့် policy ကို update လုပ်ပါ</span><span class="hljs-punctuation">:</span> | |
| <span class="hljs-attribute">min(prob_ratio * normalized_advantage, | |
| clip(prob_ratio, 1-epsilon, 1+epsilon) * normalized_advantage) | |
| - kl_weight * KL(initial_policy || reference_policy) | |
| ဒီနေရာမှာ prob_ratio က current_prob / reference_prob ဖြစ်ပါတယ်။ | |
| Output</span><span class="hljs-punctuation">:</span> <span class="hljs-string">Optimized policy model</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ffpxig">ဒီ algorithm က GRPO က group-based advantage estimation ကို policy optimization နဲ့ ဘယ်လိုပေါင်းစပ်ပြီး clipping နဲ့ KL divergence constraints တွေကနေတစ်ဆင့် တည်ငြိမ်မှုကို ဘယ်လို ထိန်းသိမ်းထားလဲဆိုတာကို ပြသပါတယ်။</p> <h2 class="relative group"><a id="ရလဒမနင-သကရကမ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ရလဒမနင-သကရကမ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ရလဒ်များနှင့် သက်ရောက်မှု</span></h2> <p data-svelte-h="svelte-19kre9c">အခု algorithm ကို လေ့လာပြီးပြီဆိုတော့၊ ရလဒ်တွေကို ကြည့်ကြရအောင်။ DeepSeek R1 က domains များစွာမှာ state-of-the-art performance ကို ရရှိခဲ့ပါတယ်။</p> <table data-svelte-h="svelte-2o0ke6"><thead><tr><th>Domain</th> <th>Key Results</th></tr></thead> <tbody><tr><td>Mathematics</td> <td>• AIME 2024 တွင် 79.8%<br>• MATH-500 တွင် 97.3%</td></tr> <tr><td>Coding</td> <td>• Codeforces Rating: 2029<br>• LiveCodeBench: 65.9%</td></tr> <tr><td>General Knowledge</td> <td>• MMLU: 90.8%<br>• GPQA Diamond: 71.5%</td></tr> <tr><td>Language Tasks</td> <td>• AlpacaEval 2.0: 87.6% win rate<br>• FRAMES: 82.5%</td></tr></tbody></table> <p data-svelte-h="svelte-1b5i98x">model ရဲ့ လက်တွေ့သက်ရောက်မှုက benchmark တွေထက် ကျော်လွန်ပြီး ၎င်းရဲ့ cost-effective API pricing (input tokens တစ်သန်းလျှင် $0.14) နဲ့ အမျိုးမျိုးသော အရွယ်အစား (1.5B ကနေ 70B parameters) တွေမှာ အောင်မြင်တဲ့ model distillation တို့မှတစ်ဆင့် ဖြစ်ပါတယ်။ အထူးသဖြင့်၊ 7B model က AIME 2024 မှာ 55.5% ကို ရရှိခဲ့ပြီး၊ 70B distilled version က MATH-500 မှာ o1-mini performance (94.5%) ကို ချဉ်းကပ်ကာ မတူညီတဲ့ scales တွေမှာ ထိရောက်တဲ့ capability preservation ကို ပြသခဲ့ပါတယ်။</p> <h2 class="relative group"><a id="grpo--ကနသတခကမနင-စနခမမ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#grpo--ကနသတခကမနင-စနခမမ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>GRPO ၏ ကန့်သတ်ချက်များနှင့် စိန်ခေါ်မှုများ</span></h2> <p data-svelte-h="svelte-1mj8i27">GRPO က language models များအတွက် reinforcement learning မှာ အရေးပါတဲ့ တိုးတက်မှုတစ်ခုကို ကိုယ်စားပြုသော်လည်း၊ ၎င်းရဲ့ ကန့်သတ်ချက်တွေနဲ့ စိန်ခေါ်မှုတွေကို နားလည်ဖို့ အရေးကြီးပါတယ်။</p> <ul data-svelte-h="svelte-1ooyoit"><li><strong>Generation Cost</strong>: prompt တစ်ခုစီအတွက် completions များစွာ (၄-၁၆ ခု) ထုတ်လုပ်ခြင်းက completion တစ်ခု သို့မဟုတ် နှစ်ခုသာ ထုတ်လုပ်သော နည်းလမ်းများနှင့် နှိုင်းယှဉ်ပါက computational requirements တွေ တိုးလာပါတယ်။</li> <li><strong>Batch Size Constraints</strong>: completions များကို အုပ်စုဖွဲ့ပြီး လုပ်ဆောင်ရန် လိုအပ်ခြင်းက ထိရောက်သော batch sizes တွေကို ကန့်သတ်နိုင်ပြီး training လုပ်ငန်းစဉ်ကို ရှုပ်ထွေးစေကာ training ကို နှေးကွေးစေနိုင်ပါတယ်။</li> <li><strong>Reward Function Design</strong>: training ၏ အရည်အသွေးသည် ကောင်းစွာ ဒီဇိုင်းထုတ်ထားသော reward functions များပေါ်တွင် များစွာမူတည်ပါသည်။ ကောင်းစွာမဒီဇိုင်းထုတ်ထားသော rewards များက မရည်ရွယ်သော behaviors များ သို့မဟုတ် မှားယွင်းသော objectives များအတွက် optimization ကို ဦးတည်စေနိုင်ပါတယ်။</li> <li><strong>Group Size Tradeoffs</strong>: solutions များ၏ မတူကွဲပြားမှုနှင့် computational cost အကြား မျှတမှုကို ရှာဖွေရာတွင် optimal group size ကို ရွေးချယ်ရန် လိုအပ်သည်။ နမူနာအနည်းငယ်သာရှိပါက လုံလောက်သော မတူကွဲပြားမှုကို မပေးနိုင်ဘဲ၊ များလွန်းပါက training အချိန်နှင့် resource လိုအပ်ချက်များ တိုးလာနိုင်သည်။</li> <li><strong>KL Divergence Tuning</strong>: KL divergence penalty အတွက် မှန်ကန်သော မျှတမှုကို ရှာဖွေရန် သေချာစွာ ချိန်ညှိရန် လိုအပ်သည်။ အလွန်မြင့်မားပါက model သည် ထိရောက်စွာ သင်ယူနိုင်မည်မဟုတ်ဘဲ၊ အလွန်နည်းပါက ၎င်း၏ မူလစွမ်းရည်များမှ အလွန်အမင်း ကွာဟသွားနိုင်သည်။</li></ul> <h2 class="relative group"><a id="နဂခပ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#နဂခပ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>နိဂုံးချုပ်</span></h2> <p data-svelte-h="svelte-tc8ppb">DeepSeek R1 paper က language model development မှာ အရေးပါတဲ့ မှတ်တိုင်တစ်ခုကို ကိုယ်စားပြုပါတယ်။ Group Relative Policy Optimization (GRPO) algorithm က supervised fine-tuning ရဲ့ လိုအပ်ချက်နဲ့ ပတ်သက်တဲ့ ယခင်ယူဆချက်တွေကို စိန်ခေါ်ပြီး pure reinforcement learning က ခိုင်မာတဲ့ reasoning capabilities တွေ တည်ဆောက်နိုင်တယ်ဆိုတာကို ပြသခဲ့ပါတယ်။</p> <p data-svelte-h="svelte-2rps7t">အရေးကြီးဆုံးကတော့ DeepSeek R1 က high performance နဲ့ cost-effectiveness နဲ့ accessibility လိုမျိုး လက်တွေ့ကျတဲ့ ထည့်သွင်းစဉ်းစားမှုတွေအကြား မျှတမှုကို ထိန်းညှိနိုင်တယ်ဆိုတာ ပြသခဲ့တာပါပဲ။ model ရဲ့ capabilities တွေကို 1.5B ကနေ 70B parameters အထိ မတူညီတဲ့ အရွယ်အစားတွေမှာ အောင်မြင်စွာ distillation လုပ်နိုင်တာက အဆင့်မြင့် AI capabilities တွေကို ပိုမိုကျယ်ပြန့်စွာ ရရှိနိုင်စေမယ့် လမ်းကြောင်းတစ်ခုကို ပြသခဲ့ပါတယ်။</p> <hr> <p data-svelte-h="svelte-1uw38fw">နောက်အပိုင်းမှာ၊ ဒီ concepts တွေရဲ့ လက်တွေ့အကောင်အထည်ဖော်မှုတွေကို လေ့လာသွားမှာဖြစ်ပြီး၊ သင်ကိုယ်တိုင်ရဲ့ language model development projects တွေမှာ GRPO နဲ့ RFTrans ကို ဘယ်လိုအကျိုးယူရမလဲဆိုတာ အာရုံစိုက်သွားမှာပါ။</p> <h2 class="relative group"><a id="quiz" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#quiz"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Quiz</span></h2> <h3 class="relative group"><a id="၁-deepseek-r1-paper-ရ-အဓက-ဆနသစတထငမက-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၁-deepseek-r1-paper-ရ-အဓက-ဆနသစတထငမက-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၁။ DeepSeek R1 paper ရဲ့ အဓိက ဆန်းသစ်တီထွင်မှုက ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->reward model ရှိသည်ဖြစ်စေ၊ မရှိသည်ဖြစ်စေ preferences များမှ သင်ယူနိုင်စေသော GRPO algorithm<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->ယခင် model များထက် training အတွက် GPUs ပိုမိုအသုံးပြုခြင်း<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->လက်ရှိ models များထက် ပိုမိုကြီးမားသော language model တစ်ခု ဖန်တီးခြင်း<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၂-deepseek-r1-training-လပငနစဉရ-အဆငလဆငက-ဘတလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၂-deepseek-r1-training-လပငနစဉရ-အဆငလဆငက-ဘတလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၂။ DeepSeek R1 training လုပ်ငန်းစဉ်ရဲ့ အဆင့်လေးဆင့်က ဘာတွေလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->Cold Start, Reasoning RL, Rejection Sampling, နှင့် Diverse RL<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->Pre-training, Fine-tuning, Testing, နှင့် Deployment<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->Data Collection, Model Training, Evaluation, နှင့် Optimization<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၃-r1-zero-ရ-training-မ-aha-moment-ဖစရပဆတ-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၃-r1-zero-ရ-training-မ-aha-moment-ဖစရပဆတ-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၃။ R1-Zero ရဲ့ training မှာ ‘Aha Moment’ ဖြစ်ရပ်ဆိုတာ ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->model က အမှားတွေကို အသိအမှတ်ပြုခြင်း၊ ကိုယ်တိုင်ပြင်ဆင်ခြင်း၊ ပြီးတော့ ၎င်းရဲ့ ပြင်ဆင်မှုတွေကို ရှင်းပြနိုင်တဲ့ လုပ်ငန်းစဉ်တစ်ခု<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->model က လူသားအဆင့် စွမ်းဆောင်ရည်ကို ရောက်ရှိသည့် အချိန်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->model က ၎င်းရဲ့ training လုပ်ငန်းစဉ်ကို ပြီးမြောက်သည့်အခါ<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၄-grpo-ရ-group-formation-က-ဘယလအလပလပလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၄-grpo-ရ-group-formation-က-ဘယလအလပလပလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၄။ GRPO ရဲ့ group formation က ဘယ်လိုအလုပ်လုပ်လဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->ပြဿနာတူတူအတွက် solution များစွာ (၄-၁၆ ခု) ကို ထုတ်လုပ်ပြီး အဲဒါတွေကို အတူတကွ အကဲဖြတ်ပါတယ်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->models များစွာကို ensemble တစ်ခုထဲသို့ ပေါင်းစပ်ခြင်း<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->training data ကို မတူညီတဲ့ groups တွေအဖြစ် ခွဲခြင်း<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၅-deepseek-r1-zero-န-deepseek-r1-က-အဓကကခခကက-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၅-deepseek-r1-zero-န-deepseek-r1-က-အဓကကခခကက-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၅။ DeepSeek-R1-Zero နဲ့ DeepSeek-R1 ကြား အဓိကကွာခြားချက်က ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->R1-Zero က pure RL ကို အသုံးပြုပြီး R1 က RL နဲ့ supervised fine-tuning ကို ပေါင်းစပ်ထားပါတယ်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->R1-Zero က R1 ထက် ပိုသေးငယ်ပါတယ်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->R1-Zero ကို data နည်းနည်းနဲ့ train လုပ်ထားပါတယ်<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <hr> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-mf0h46"><li><strong>Crash Course</strong>: အကြောင်းအရာတစ်ခု၏ အခြေခံအချက်အလက်များကို လျင်မြန်စွာ သင်ကြားပေးသော သင်တန်း။</li> <li><strong>Paper Reading</strong>: သိပ္ပံနည်းကျ စာတမ်းတစ်ခုကို ဖတ်ရှုခြင်းနှင့် နားလည်ခြင်း။</li> <li><strong>DeepSeek R1</strong>: DeepSeek AI မှ ထုတ်လုပ်ထားသော language model တစ်မျိုး။</li> <li><strong>Reasoning Capabilities</strong>: အကြောင်းအရာများကို ခွဲခြမ်းစိတ်ဖြာခြင်း၊ ဆက်နွယ်မှုများ ရှာဖွေခြင်း၊ ဆုံးဖြတ်ချက်များ ချမှတ်ခြင်းနှင့် ပြဿနာများကို ဖြေရှင်းခြင်းစွမ်းရည်။</li> <li><strong>Reinforcement Learning (RL)</strong>: Agent တစ်ခုသည် environment နှင့် အပြန်အလှန်တုံ့ပြန်ခြင်းမှ သင်ယူပြီး rewards များကို အမြင့်ဆုံးမြှင့်တင်ရန် ကြိုးစားသည့် Machine Learning နယ်ပယ်ခွဲတစ်ခု။</li> <li><strong>Group Relative Policy Optimization (GRPO)</strong>: DeepSeek R1 paper တွင် မိတ်ဆက်ခဲ့သော Reinforcement Learning algorithm အသစ်တစ်ခု။</li> <li><strong>Supervised Fine-tuning (SFT)</strong>: Pre-trained model တစ်ခုကို labeled data အနည်းငယ်ဖြင့် သီးခြား task တစ်ခုအတွက် ထပ်မံလေ့ကျင့်ပေးခြင်း။</li> <li><strong>LLMs (Large Language Models)</strong>: လူသားဘာသာစကားကို နားလည်ပြီး ထုတ်လုပ်ပေးနိုင်တဲ့ အလွန်ကြီးမားတဲ့ Artificial Intelligence (AI) မော်ဒယ်တွေ ဖြစ်ပါတယ်။</li> <li><strong>R1-Zero</strong>: DeepSeek R1 ၏ Reinforcement Learning သီးသန့်ဖြင့် လေ့ကျင့်ထားသော version။</li> <li><strong>Aha Moment</strong>: ပြဿနာဖြေရှင်းနေစဉ် ရုတ်တရက် နားလည်သွားသော သို့မဟုတ် ထိုးထွင်းသိမြင်မှုရရှိသော အချိန်။</li> <li><strong>Self-Correction</strong>: Model က ၎င်း၏ကိုယ်ပိုင်အမှားများကို အသိအမှတ်ပြုပြီး ပြင်ဆင်ခြင်း။</li> <li><strong>Memorization</strong>: သင်ယူထားသည့် အချက်အလက်များကို နားလည်မှုမရှိဘဲ မှတ်သားထားခြင်း။</li> <li><strong>UI (User Interface)</strong>: အသုံးပြုသူနှင့် ဆော့ဖ်ဝဲလ်ကြား အပြန်အလှန်တုံ့ပြန်နိုင်သော ဂရပ်ဖစ်ပုံစံ interface။</li> <li><strong>Hugging Chat</strong>: Hugging Face မှ ပံ့ပိုးပေးသော AI chatbot platform။</li> <li><strong>Multi-phase Process</strong>: အဆင့်များစွာဖြင့် လုပ်ဆောင်သော လုပ်ငန်းစဉ်။</li> <li><strong>DeepSeek-R1-Zero</strong>: DeepSeek-R1 ၏ Reinforcement Learning သီးသန့်ဖြင့် လေ့ကျင့်ထားသော version။</li> <li><strong>DeepSeek-R1</strong>: DeepSeek-R1-Zero ၏ အခြေခံအပေါ် တည်ဆောက်ထားပြီး supervised fine-tuning ထပ်ပေါင်းထားသော version။</li> <li><strong>AIME Performance</strong>: American Invitational Mathematics Examination (AIME) ပေါ်ရှိ model ၏ စွမ်းဆောင်ရည်။</li> <li><strong>Readability</strong>: စာသားကို ဖတ်ရှုရလွယ်ကူခြင်းနှင့် နားလည်ရလွယ်ကူခြင်း။</li> <li><strong>Language Consistency</strong>: မော်ဒယ်မှ ထုတ်လုပ်သော ဘာသာစကား၏ တသမတ်တည်းဖြစ်မှု။</li> <li><strong>Usability</strong>: ထုတ်ကုန်တစ်ခုကို အသုံးပြုရလွယ်ကူခြင်း။</li> <li><strong>Cold Start Phase</strong>: model ရဲ့ readability နဲ့ response quality အတွက် ခိုင်မာတဲ့ အခြေခံတစ်ခု ထူထောင်ဖို့ ရည်ရွယ်တဲ့ training အဆင့်။</li> <li><strong>DeepSeek-V3-Base Model</strong>: DeepSeek AI မှ ထုတ်လုပ်ထားသော base language model တစ်မျိုး။</li> <li><strong>Validated Samples</strong>: မှန်ကန်ကြောင်း စစ်ဆေးအတည်ပြုထားသော နမူနာများ။</li> <li><strong>Baseline Readability</strong>: စာသားကို အခြေခံအားဖြင့် ဖတ်ရှုနားလည်နိုင်မှု အဆင့်။</li> <li><strong>Response Quality</strong>: model မှ ထုတ်ပေးသော အဖြေ၏ အရည်အသွေး။</li> <li><strong>Reasoning RL Phase</strong>: core reasoning capabilities တွေ တည်ဆောက်ဖို့ အာရုံစိုက်တဲ့ training အဆင့်။</li> <li><strong>Rule-based Reinforcement Learning</strong>: ကြိုတင်သတ်မှတ်ထားသော စည်းမျဉ်းများ (rules) ကို အခြေခံ၍ reward များကို ပေးပြီး model ကို လေ့ကျင့်သော RL အမျိုးအစား။</li> <li><strong>Rewards</strong>: Reinforcement Learning တွင် agent ၏ လုပ်ဆောင်ချက်များကို အကဲဖြတ်ရန် အသုံးပြုသော အပေါင်း သို့မဟုတ် အနုတ်တန်ဖိုး။</li> <li><strong>Solution Correctness</strong>: အဖြေ၏ မှန်ကန်မှု။</li> <li><strong>Verifiable Tasks</strong>: အဖြေ၏ မှန်ကန်မှုကို စစ်ဆေးအတည်ပြုနိုင်သော tasks များ။</li> <li><strong>Mathematical Solver</strong>: သင်္ချာပြဿနာများကို ဖြေရှင်းရန် ဒီဇိုင်းထုတ်ထားသော ကိရိယာ သို့မဟုတ် ဆော့ဖ်ဝဲလ်။</li> <li><strong>Direct Optimization Approach</strong>: သီးခြား reward model မလိုအပ်ဘဲ objective function ကို တိုက်ရိုက် optimize လုပ်သော နည်းလမ်း။</li> <li><strong>Reward Model</strong>: Reinforcement Learning from Human Feedback (RLHF) တွင် human preferences များကို အခြေခံ၍ reward များကို ခန့်မှန်းပေးသော model။</li> <li><strong>Rejection Sampling Phase</strong>: model မှ ထုတ်လုပ်သော samples များကို quality control လုပ်ငန်းစဉ်ဖြင့် စစ်ထုတ်သည့် training အဆင့်။</li> <li><strong>Quality Judge</strong>: output များ၏ အရည်အသွေးကို အကဲဖြတ်ရန် အသုံးပြုသော model သို့မဟုတ် စနစ်။</li> <li><strong>Quality Signals</strong>: အရည်အသွေးကို ညွှန်ပြသော အချက်အလက်များ။</li> <li><strong>Supervised Fine-tuning</strong>: Pre-trained model တစ်ခုကို labeled data အနည်းငယ်ဖြင့် သီးခြား task တစ်ခုအတွက် ထပ်မံလေ့ကျင့်ပေးခြင်း။</li> <li><strong>Diverse RL Phase</strong>: multiple task types တွေကို hybrid ချဉ်းကပ်ပုံနဲ့ ကိုင်တွယ်ဖြေရှင်းတဲ့ training အဆင့်။</li> <li><strong>Deterministic Tasks</strong>: သတ်မှတ်ထားသော input အတွက် တစ်ခုတည်းသော မှန်ကန်သည့် output ရှိသော tasks များ။</li> <li><strong>Rule-based Rewards</strong>: ကြိုတင်သတ်မှတ်ထားသော စည်းမျဉ်းများကို အခြေခံ၍ ပေးသော rewards များ။</li> <li><strong>Subjective Tasks</strong>: မှန်ကန်သော အဖြေတစ်ခုတည်း မရှိဘဲ လူသား၏ ဆုံးဖြတ်ချက်ပေါ် မူတည်သော tasks များ။</li> <li><strong>LLM Feedback</strong>: Large Language Model မှ ပေးသော feedback။</li> <li><strong>Human Preference Alignment</strong>: model ၏ output များကို လူသားများ၏ နှစ်သက်မှုများနှင့် ကိုက်ညီအောင် လုပ်ဆောင်ခြင်း။</li> <li><strong>Hybrid Reward Approach</strong>: rule-based rewards နှင့် LLM feedback တို့ကို ပေါင်းစပ်အသုံးပြုသော reward ချဉ်းကပ်ပုံ။</li> <li><strong>Policy Optimization</strong>: Reinforcement Learning တွင် agent ၏ policy (လုပ်ဆောင်ချက်များ) ကို မြှင့်တင်ခြင်း။</li> <li><strong>Preference Rectification</strong>: model ၏ output များကို လိုချင်သော preferences များနှင့် ကိုက်ညီအောင် ပြင်ဆင်ခြင်း။</li> <li><strong>PPO (Proximal Policy Optimization)</strong>: Reinforcement Learning တွင် အသုံးများသော policy optimization algorithm တစ်ခု။</li> <li><strong>RLHF (Reinforcement Learning from Human Feedback)</strong>: လူသားများ၏ feedback မှ rewards များကို သင်ယူပြီး model ကို လေ့ကျင့်သော RL အမျိုးအစား။</li> <li><strong>Group Formation</strong>: ပြဿနာတူတူအတွက် multiple solutions များကို ထုတ်လုပ်ပြီး အုပ်စုဖွဲ့ခြင်း။</li> <li><strong>Prompt</strong>: model သို့ ပေးသော input text သို့မဟုတ် မေးခွန်း။</li> <li><strong>Response</strong>: model မှ ထုတ်ပေးသော အဖြေ သို့မဟုတ် စာသား။</li> <li><strong>Non-laying Hens</strong>: ဥမဥသော ကြက်မများ။</li> <li><strong>Preference Learning</strong>: model ၏ output များကို မည်သို့ အကဲဖြတ်ရမည်ကို သင်ယူခြင်း။</li> <li><strong>Reward Function</strong>: output တစ်ခု၏ အရည်အသွေးကို ဂဏန်းတန်ဖိုး (reward) အဖြစ် ပြောင်းလဲပေးသော function။</li> <li><strong>Mathematical Solver</strong>: သင်္ချာပြဿနာများကို ဖြေရှင်းရန် ဒီဇိုင်းထုတ်ထားသော ကိရိယာ သို့မဟုတ် ဆော့ဖ်ဝဲလ်။</li> <li><strong>Formatting</strong>: စာသား သို့မဟုတ် ဒေတာများ၏ ပုံစံ။</li> <li><strong>XML Tags</strong>: XML (Extensible Markup Language) တွင် data ကို ဖွဲ့စည်းရန် အသုံးပြုသော tags များ။</li> <li><strong>Normalize Rewards</strong>: rewards များကို သတ်မှတ်ထားသော အတိုင်းအတာ (ဥပမာ- 0-1) အတွင်းသို့ ပြောင်းလဲခြင်း။</li> <li><strong>Group Relative Advantage Estimation</strong>: အုပ်စုအတွင်းရှိ solution တစ်ခု၏ reward ကို အုပ်စု၏ ပျမ်းမျှ reward နှင့် နှိုင်းယှဉ်၍ တွက်ချက်သော တန်ဖိုး။</li> <li><strong><code>mean(group_rewards)</code></strong>: အုပ်စုအတွင်းရှိ rewards များ၏ ပျမ်းမျှတန်ဖိုး။</li> <li><strong><code>std(group_rewards)</code></strong>: အုပ်စုအတွင်းရှိ rewards များ၏ standard deviation။</li> <li><strong>Clipped Ratio</strong>: Policy optimization တွင် update ၏ အရွယ်အစားကို ကန့်သတ်ရန် အသုံးပြုသော နည်းလမ်း။</li> <li><strong>KL Divergence Penalty</strong>: Policy update ၏ အရွယ်အစားကို ထိန်းချုပ်ပြီး policy အဟောင်းမှ အလွန်အမင်း ကွာဟသွားခြင်းကို ကာကွယ်ပေးသော penalty term။</li> <li><strong><code>initial_policy</code></strong>: Training စတင်ချိန်တွင် model ၏ စတင် policy။</li> <li><strong><code>reference_policy</code></strong>: Policy update ကို နှိုင်းယှဉ်ရန်အတွက် အသုံးပြုသော policy ၏ snapshot။</li> <li><strong><code>prob_ratio</code></strong>: လက်ရှိ policy အောက်ရှိ လုပ်ဆောင်ချက်တစ်ခု၏ ဖြစ်နိုင်ခြေကို reference policy အောက်ရှိ ဖြစ်နိုင်ခြေနှင့် နှိုင်းယှဉ်ထားသော အချိုး။</li> <li><strong><code>epsilon</code></strong>: Clipping parameter။</li> <li><strong><code>kl_weight</code></strong>: KL divergence penalty ၏ အရေးပါမှုကို ထိန်းချုပ်သော weight။</li> <li><strong>State-of-the-art Performance</strong>: လက်ရှိရရှိနိုင်သော အကောင်းဆုံးစွမ်းဆောင်ရည်။</li> <li><strong>AIME 2024</strong>: American Invitational Mathematics Examination 2024။</li> <li><strong>MATH-500</strong>: သင်္ချာပြဿနာ dataset တစ်ခု။</li> <li><strong>Codeforces Rating</strong>: Programming contest platform (Codeforces) ပေါ်ရှိ coder တစ်ဦး၏ စွမ်းဆောင်ရည် အဆင့်သတ်မှတ်ချက်။</li> <li><strong>LiveCodeBench</strong>: Coding tasks အတွက် benchmark dataset တစ်ခု။</li> <li><strong>MMLU (Massive Multitask Language Understanding)</strong>: Language model ၏ အသိပညာနှင့် reasoning စွမ်းရည်များကို တိုင်းတာသော benchmark။</li> <li><strong>GPQA Diamond</strong>: General Purpose Question Answering (GPQA) ၏ high-quality subset။</li> <li><strong>AlpacaEval 2.0</strong>: Language model များ၏ instruction-following စွမ်းရည်ကို အကဲဖြတ်သော benchmark။</li> <li><strong>FRAMES</strong>: Language understanding task တစ်ခု။</li> <li><strong>Cost-effective API Pricing</strong>: ကုန်ကျစရိတ်သက်သာသော API (Application Programming Interface) ဈေးနှုန်း။</li> <li><strong>Model Distillation</strong>: ကြီးမားသော model (teacher model) ၏ knowledge ကို ပိုမိုသေးငယ်သော model (student model) သို့ ပြောင်းလဲခြင်း။</li> <li><strong>Capability Preservation</strong>: model distillation လုပ်ငန်းစဉ်တွင် model ၏ စွမ်းရည်များကို ထိန်းသိမ်းထားခြင်း။</li> <li><strong>Computational Requirements</strong>: algorithm သို့မဟုတ် program တစ်ခုကို run ရန် လိုအပ်သော ကွန်ပျူတာ အရင်းအမြစ်များ (ဥပမာ- CPU, GPU, memory)။</li> <li><strong>Batch Size</strong>: training လုပ်ငန်းစဉ်တစ်ခုစီတွင် model သို့ ပေးပို့သော input samples အရေအတွက်။</li> <li><strong>Reward Function Design</strong>: reward function ကို တည်ဆောက်ခြင်း။</li> <li><strong>Unintended Behaviors</strong>: model က မရည်ရွယ်ဘဲ လုပ်ဆောင်သော အပြုအမူများ။</li> <li><strong>Optimization Objectives</strong>: model ကို လေ့ကျင့်ရာတွင် ဖြည့်ဆည်းလိုသော ပန်းတိုင်များ။</li> <li><strong>Diversity of Solutions</strong>: မတူညီသော ဖြေရှင်းနည်းများ။</li> <li><strong>TRL</strong>: Hugging Face မှ Reinforcement Learning (RL) ဖြင့် Transformer models များကို လေ့ကျင့်ရန်အတွက် library တစ်ခု။</li> <li><strong>RFTrans</strong>: DeepSeek R1 paper တွင် ဖော်ပြထားသော architecture အစိတ်အပိုင်းတစ်ခု (GLPO နှင့် ဆက်စပ်၍)။</li> <li><strong>Unsloth</strong>: Hugging Face Transformer models များကို ပိုမိုမြန်ဆန်စွာ fine-tuning လုပ်ရန် ကူညီပေးသော library တစ်ခု။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter12/3.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p> | |
| <script> | |
| { | |
| __sveltekit_5q47hu = { | |
| assets: "/docs/course/pr_1095/my", | |
| base: "/docs/course/pr_1095/my", | |
| env: {} | |
| }; | |
| const element = document.currentScript.parentElement; | |
| const data = [null,null]; | |
| Promise.all([ | |
| import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"), | |
| import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js") | |
| ]).then(([kit, app]) => { | |
| kit.start(app, element, { | |
| node_ids: [0, 30], | |
| data, | |
| form: null, | |
| error: null | |
| }); | |
| }); | |
| } | |
| </script> | |
Xet Storage Details
- Size:
- 107 kB
- Xet hash:
- 6d42a062213a404fe8d61d362c7efeaf7b654ae7ecd45fbe5b8bacbadbb04426
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.