Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1095 /my /chapter12 /2.html

rtrm

about 1 month ago

download

raw

84.8 kB

	<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Reinforcement Learning နှင့် LLMs တွင် ၎င်း၏အခန်းကဏ္ဍ မိတ်ဆက်","local":"introduction-to-reinforcement-learning-and-its-role-in-llms","sections":[{"title":"Reinforcement Learning (RL) ဆိုတာ ဘာလဲ။","local":"reinforcement-learning-rl-ဆတ-ဘလ","sections":[{"title":"Agent","local":"agent","sections":[],"depth":3},{"title":"Environment","local":"environment","sections":[],"depth":3},{"title":"Action","local":"action","sections":[],"depth":3},{"title":"Reward","local":"reward","sections":[],"depth":3},{"title":"Policy","local":"policy","sections":[],"depth":3}],"depth":2},{"title":"RL လုပ်ငန်းစဉ် - စမ်းသပ်မှုနှင့် အမှား (Trial and Error)","local":"rl-လပငနစဉ---စမသပမနင-အမ-trial-and-error","sections":[],"depth":2},{"title":"Large Language Models (LLMs) တွင် RL ၏ အခန်းကဏ္ဍ","local":"large-language-models-llms-တင-rl--အခနကဏဍ","sections":[],"depth":2},{"title":"Reinforcement Learning from Human Feedback (RLHF)","local":"reinforcement-learning-from-human-feedback-rlhf","sections":[],"depth":2},{"title":"GRPO (Group Relative Policy Optimization) ကို ဘာကြောင့် ဂရုစိုက်သင့်သလဲ။","local":"grpo-group-relative-policy-optimization-က-ဘကင-ဂရစကသငသလ","sections":[],"depth":2},{"title":"မေးခွန်းများ","local":"မခနမ","sections":[{"title":"၁။ Reinforcement Learning ၏ အဓိက အစိတ်အပိုင်းများက ဘာတွေလဲ။","local":"၁-reinforcement-learning--အဓက-အစတအပငမက-ဘတလ","sections":[],"depth":3},{"title":"၂။ Language Models တွေ train ဖို့ RLHF ရဲ့ အဓိက အကျိုးကျေးဇူးက ဘာလဲ။","local":"၂-language-models-တ-train-ဖ-rlhf-ရ-အဓက-အကကဇက-ဘလ","sections":[],"depth":3},{"title":"၃။ LLMs တွေအတွက် RL အခြေအနေမှာ၊ “action” ဆိုတာ ဘာကို ကိုယ်စားပြုလဲ။","local":"၃-llms-တအတက-rl-အခအနမ-action-ဆတ-ဘက-ကယစပလ","sections":[],"depth":3},{"title":"၄။ Language models တွေရဲ့ RL training မှာ reward ရဲ့ အခန်းကဏ္ဍက ဘာလဲ။","local":"၄-language-models-တရ-rl-training-မ-reward-ရ-အခနကဏဍက-ဘလ","sections":[],"depth":3},{"title":"၅။ LLMs တွေအတွက် RL အခြေအနေမှာ reward ဆိုတာ ဘာလဲ။","local":"၅-llms-တအတက-rl-အခအနမ-reward-ဆတ-ဘလ","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}">
	<link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/29.d0aa193f.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Question.ea6d4cb0.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/stores.db603902.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Reinforcement Learning နှင့် LLMs တွင် ၎င်း၏အခန်းကဏ္ဍ မိတ်ဆက်","local":"introduction-to-reinforcement-learning-and-its-role-in-llms","sections":[{"title":"Reinforcement Learning (RL) ဆိုတာ ဘာလဲ။","local":"reinforcement-learning-rl-ဆတ-ဘလ","sections":[{"title":"Agent","local":"agent","sections":[],"depth":3},{"title":"Environment","local":"environment","sections":[],"depth":3},{"title":"Action","local":"action","sections":[],"depth":3},{"title":"Reward","local":"reward","sections":[],"depth":3},{"title":"Policy","local":"policy","sections":[],"depth":3}],"depth":2},{"title":"RL လုပ်ငန်းစဉ် - စမ်းသပ်မှုနှင့် အမှား (Trial and Error)","local":"rl-လပငနစဉ---စမသပမနင-အမ-trial-and-error","sections":[],"depth":2},{"title":"Large Language Models (LLMs) တွင် RL ၏ အခန်းကဏ္ဍ","local":"large-language-models-llms-တင-rl--အခနကဏဍ","sections":[],"depth":2},{"title":"Reinforcement Learning from Human Feedback (RLHF)","local":"reinforcement-learning-from-human-feedback-rlhf","sections":[],"depth":2},{"title":"GRPO (Group Relative Policy Optimization) ကို ဘာကြောင့် ဂရုစိုက်သင့်သလဲ။","local":"grpo-group-relative-policy-optimization-က-ဘကင-ဂရစကသငသလ","sections":[],"depth":2},{"title":"မေးခွန်းများ","local":"မခနမ","sections":[{"title":"၁။ Reinforcement Learning ၏ အဓိက အစိတ်အပိုင်းများက ဘာတွေလဲ။","local":"၁-reinforcement-learning--အဓက-အစတအပငမက-ဘတလ","sections":[],"depth":3},{"title":"၂။ Language Models တွေ train ဖို့ RLHF ရဲ့ အဓိက အကျိုးကျေးဇူးက ဘာလဲ။","local":"၂-language-models-တ-train-ဖ-rlhf-ရ-အဓက-အကကဇက-ဘလ","sections":[],"depth":3},{"title":"၃။ LLMs တွေအတွက် RL အခြေအနေမှာ၊ “action” ဆိုတာ ဘာကို ကိုယ်စားပြုလဲ။","local":"၃-llms-တအတက-rl-အခအနမ-action-ဆတ-ဘက-ကယစပလ","sections":[],"depth":3},{"title":"၄။ Language models တွေရဲ့ RL training မှာ reward ရဲ့ အခန်းကဏ္ဍက ဘာလဲ။","local":"၄-language-models-တရ-rl-training-မ-reward-ရ-အခနကဏဍက-ဘလ","sections":[],"depth":3},{"title":"၅။ LLMs တွေအတွက် RL အခြေအနေမှာ reward ဆိုတာ ဘာလဲ။","local":"၅-llms-တအတက-rl-အခအနမ-reward-ဆတ-ဘလ","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="introduction-to-reinforcement-learning-and-its-role-in-llms" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#introduction-to-reinforcement-learning-and-its-role-in-llms"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reinforcement Learning နှင့် LLMs တွင် ၎င်း၏အခန်းကဏ္ဍ မိတ်ဆက်</span></h1> <p data-svelte-h="svelte-18dfjvv">ပထမဆုံး စာမျက်နှာမှ ကြိုဆိုပါတယ်။</p> <p data-svelte-h="svelte-10ecgip">ကျွန်တော်တို့ဟာ Reinforcement Learning (RL) ရဲ့ စိတ်လှုပ်ရှားဖွယ်ရာ ကမ္ဘာဆီကို ခရီးစတင်ပြီး၊ သင်နေ့စဉ်အသုံးပြုနေနိုင်တဲ့ Language Models တွေကို လေ့ကျင့်ရာမှာ ဒါက ဘယ်လိုတော်လှန်ပြောင်းလဲနေလဲဆိုတာ ရှာဖွေသွားမှာပါ။</p> <blockquote class="tip" data-svelte-h="svelte-5mivjg"><p>ဒီအခန်းမှာ၊ ကျွန်တော်တို့ဟာ language models တွေအတွက် reinforcement learning ကို အဓိကထား လေ့လာသွားမှာပါ။ သို့သော်လည်း၊ reinforcement learning ဟာ language models တွေအပြင် အခြားသော applications များစွာရှိတဲ့ ကျယ်ပြန့်တဲ့ နယ်ပယ်တစ်ခုပါ။ သင် reinforcement learning အကြောင်း ပိုမိုလေ့လာချင်တယ်ဆိုရင် <a href="https://huggingface.co/courses/deep-rl-course/en/unit1/introduction" rel="nofollow">Deep Reinforcement Learning course</a> ကို ကြည့်ရှုသင့်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-1nfuq6g">ဒီစာမျက်နှာက RL နဲ့ ပတ်သက်ပြီး သင်ဘယ်တုန်းကမှ မကြုံဖူးရင်တောင်မှ၊ ဖော်ရွေပြီး ရှင်းလင်းပြတ်သားတဲ့ နိဒါန်းတစ်ခုကို ပေးပါလိမ့်မယ်။ အဓိကအယူအဆတွေကို ခွဲခြမ်းစိတ်ဖြာပြီး Large Language Models (LLMs) နယ်ပယ်မှာ RL ဟာ ဘာကြောင့် ဒီလောက်အရေးပါလာတာလဲဆိုတာကို ကြည့်ရပါမယ်။</p> <h2 class="relative group"><a id="reinforcement-learning-rl-ဆတ-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#reinforcement-learning-rl-ဆတ-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reinforcement Learning (RL) ဆိုတာ ဘာလဲ။</span></h2> <p data-svelte-h="svelte-pse1eq">ခွေးတစ်ကောင်ကို လေ့ကျင့်ပေးနေတယ်လို့ မြင်ယောင်ကြည့်ပါ။ သင်က ခွေးကို ထိုင်ခိုင်းချင်တယ်။ သင်က “ထိုင်!” လို့ ပြောပြီး ခွေးက ထိုင်ရင် ဆုအဖြစ် မုန့်ပေးပြီး ချီးကျူးပါလိမ့်မယ်။ မထိုင်ရင်တော့ ညင်သာစွာ လမ်းညွှန်ပေးတာ ဒါမှမဟုတ် ထပ်ကြိုးစားတာမျိုး လုပ်ပါလိမ့်မယ်။ အချိန်ကြာလာတာနဲ့အမျှ ခွေးက ထိုင်ခြင်းကို ကောင်းမွန်တဲ့ ဆုလာဘ် (မုန့်နဲ့ ချီးကျူးခြင်း) နဲ့ ဆက်စပ်ပြီး သင် “ထိုင်!” လို့ ထပ်ပြောတဲ့အခါ ထိုင်ဖို့ ပိုပြီးဖြစ်နိုင်ချေရှိလာပါလိမ့်မယ်။ Reinforcement learning မှာ၊ ဒီ feedback ကို <strong>reward</strong> လို့ ကျွန်တော်တို့ ခေါ်ပါတယ်။</p> <p data-svelte-h="svelte-sb86qk">အနှစ်ချုပ်ပြောရရင် ဒါက Reinforcement Learning ရဲ့ အခြေခံအယူအဆပါပဲ! ခွေးအစား ကျွန်တော်တို့မှာ <strong>language model</strong> (reinforcement learning မှာ ကျွန်တော်တို့က <strong>agent</strong> လို့ ခေါ်ပါတယ်) ရှိပြီး၊ သင့်အစား feedback ပေးတဲ့ <strong>environment</strong> ရှိပါတယ်။</p> <p data-svelte-h="svelte-sy5vgw"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/3.jpg" alt="RL terms Process"></p> <p data-svelte-h="svelte-d4w68j">RL ရဲ့ အဓိကအစိတ်အပိုင်းတွေကို ခွဲခြမ်းစိတ်ဖြာကြည့်ရအောင်။</p> <h3 class="relative group"><a id="agent" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#agent"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Agent</span></h3> <p data-svelte-h="svelte-7lbjk5">ဒါက ကျွန်တော်တို့ရဲ့ သင်ယူသူ (learner) ပါ။ ခွေးဥပမာမှာ၊ ခွေးက agent ပါ။ LLMs အခြေအနေမှာ၊ LLM ကိုယ်တိုင်က ကျွန်တော်တို့ လေ့ကျင့်ချင်တဲ့ agent ဖြစ်လာပါတယ်။ Agent က ဆုံးဖြတ်ချက်တွေ ချမှတ်ပြီး environment နဲ့ ၎င်းရဲ့ rewards တွေကနေ သင်ယူသူပါ။</p> <h3 class="relative group"><a id="environment" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#environment"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Environment</span></h3> <p data-svelte-h="svelte-1xqpify">ဒါက agent နေထိုင်ပြီး အပြန်အလှန်ဆက်ဆံတဲ့ ကမ္ဘာပါ။ ခွေးအတွက်ကတော့ သင့်အိမ်နဲ့ သင်ပါ။ LLM အတွက်ကတော့ environment က နည်းနည်း ပိုပြီး abstract ပါ – အဲဒါက သူအပြန်အလှန်ဆက်ဆံတဲ့ users တွေ ဖြစ်နိုင်သလို၊ ကျွန်တော်တို့ သူ့အတွက် သတ်မှတ်ထားတဲ့ simulated scenario တစ်ခုလည်း ဖြစ်နိုင်ပါတယ်။ Environment က agent ကို feedback ပေးပါတယ်။</p> <h3 class="relative group"><a id="action" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#action"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Action</span></h3> <p data-svelte-h="svelte-ad92ii">ဒါတွေက environment ထဲမှာ agent က လုပ်နိုင်တဲ့ ရွေးချယ်မှုတွေပါ။ ခွေးရဲ့ actions တွေက “ထိုင်”၊ “ရပ်”၊ “ဟောင်” စတာတွေလိုမျိုးပါ။ LLM အတွက်ကတော့ actions တွေက စာကြောင်းတစ်ကြောင်းမှာ စကားလုံးတွေ ထုတ်လုပ်တာ၊ မေးခွန်းတစ်ခုရဲ့ ဘယ်အဖြေကို ပေးရမလဲဆိုတာ ရွေးချယ်တာ ဒါမှမဟုတ် စကားဝိုင်းတစ်ခုမှာ ဘယ်လိုတုံ့ပြန်ရမလဲဆိုတာ ဆုံးဖြတ်တာမျိုးတွေ ဖြစ်နိုင်ပါတယ်။</p> <h3 class="relative group"><a id="reward" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#reward"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reward</span></h3> <p data-svelte-h="svelte-1fz5ovd">ဒါက agent က action တစ်ခုယူပြီးတဲ့နောက် environment က agent ကို ပေးတဲ့ feedback ပါ။ Rewards တွေက များသောအားဖြင့် ကိန်းဂဏန်းတွေပါ။</p> <p data-svelte-h="svelte-1uwjnzl"><strong>Positive rewards</strong> တွေက မုန့်နဲ့ ချီးကျူးခြင်းလိုပါပဲ – ဒါတွေက agent ကို “ကောင်းတယ်၊ မှန်ကန်တာတစ်ခု လုပ်ခဲ့တယ်!” လို့ ပြောပါတယ်။</p> <p data-svelte-h="svelte-1o5tnbc"><strong>Negative rewards</strong> (ဒါမှမဟုတ် penalties) တွေက ညင်သာတဲ့ “မဟုတ်ဘူး” လိုပါပဲ – ဒါတွေက agent ကို “ဒါက သိပ်မမှန်ဘူး၊ တခြားတစ်ခု ကြိုးစားကြည့်ပါ” လို့ ပြောပါတယ်။ ခွေးအတွက်ကတော့ မုန့်က reward ပါ။</p> <p data-svelte-h="svelte-siwc8i">LLM အတွက်ကတော့ rewards တွေကို LLM က သတ်မှတ်ထားတဲ့ task တစ်ခုမှာ ဘယ်လောက်ကောင်းကောင်း လုပ်ဆောင်နေလဲဆိုတာကို ထင်ဟပ်အောင် ဒီဇိုင်းထုတ်ထားပါတယ် – ဒါက သူ့ရဲ့ တုံ့ပြန်မှုဟာ ဘယ်လောက်အသုံးဝင်လဲ၊ မှန်ကန်လဲ၊ ဒါမှမဟုတ် အန္တရာယ်ကင်းလဲဆိုတာမျိုး ဖြစ်နိုင်ပါတယ်။</p> <h3 class="relative group"><a id="policy" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#policy"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Policy</span></h3> <p data-svelte-h="svelte-xv7a3m">ဒါက agent ရဲ့ actions တွေ ရွေးချယ်ဖို့ ဗျူဟာ (strategy) ပါ။ ဒါဟာ သင် “ထိုင်!” လို့ ပြောတဲ့အခါ ခွေးက ဘာလုပ်သင့်တယ်ဆိုတာ နားလည်ထားတာမျိုးပါပဲ။ RL မှာ policy ဟာ ကျွန်တော်တို့ တကယ်သင်ယူပြီး တိုးတက်အောင် လုပ်ဖို့ ကြိုးစားနေတာပါ။ ဒါက မတူညီတဲ့ အခြေအနေတွေမှာ agent က ဘယ် action ကို ယူရမလဲဆိုတာ ပြောပြတဲ့ စည်းမျဉ်းစည်းကမ်းများ သို့မဟုတ် function တစ်ခုပါ။ အစပိုင်းမှာ policy က random ဖြစ်နိုင်ပေမယ့်၊ agent က သင်ယူလာတာနဲ့အမျှ policy က ပိုမိုမြင့်မားတဲ့ rewards တွေကို ဖြစ်ပေါ်စေတဲ့ actions တွေကို ရွေးချယ်ရာမှာ ပိုကောင်းလာပါတယ်။</p> <h2 class="relative group"><a id="rl-လပငနစဉ---စမသပမနင-အမ-trial-and-error" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#rl-လပငနစဉ---စမသပမနင-အမ-trial-and-error"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>RL လုပ်ငန်းစဉ် - စမ်းသပ်မှုနှင့် အမှား (Trial and Error)</span></h2> <p data-svelte-h="svelte-t8x49h"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/1.jpg" alt="RL Process"></p> <p data-svelte-h="svelte-1ja5ucu">Reinforcement Learning က စမ်းသပ်မှုနဲ့ အမှား (trial and error) လုပ်ငန်းစဉ်ကနေတစ်ဆင့် ဖြစ်ပျက်ပါတယ်။</p> <table data-svelte-h="svelte-1rkt3b2"><thead><tr><th>အဆင့်</th> <th>လုပ်ငန်းစဉ်</th> <th>ဖော်ပြချက်</th></tr></thead> <tbody><tr><td>၁။ Observation</td> <td>Agent က environment ကို လေ့လာသည်။</td> <td>Agent က သူ့ရဲ့ လက်ရှိအခြေအနေနဲ့ ပတ်ဝန်းကျင်အကြောင်း အချက်အလက်တွေကို ရယူသည်။</td></tr> <tr><td>၂။ Action</td> <td>Agent က သူ့ရဲ့ လက်ရှိ policy ကို အခြေခံပြီး action တစ်ခု ယူသည်။</td> <td>သူသင်ယူထားတဲ့ ဗျူဟာ (policy) ကို အသုံးပြုပြီး agent က နောက်ဘာလုပ်ရမလဲဆိုတာ ဆုံးဖြတ်သည်။</td></tr> <tr><td>၃။ Feedback</td> <td>Environment က agent ကို reward ပေးသည်။</td> <td>Agent က သူယူခဲ့တဲ့ action က ဘယ်လောက်ကောင်းလဲ ဒါမှမဟုတ် ဆိုးလဲဆိုတဲ့ feedback ကို ရရှိသည်။</td></tr> <tr><td>၄။ Learning</td> <td>Agent က reward ကို အခြေခံပြီး သူ့ရဲ့ policy ကို update လုပ်သည်။</td> <td>Agent က သူ့ရဲ့ ဗျူဟာကို ချိန်ညှိသည် - မြင့်မားတဲ့ rewards တွေဆီ ဦးတည်စေတဲ့ actions တွေကို အားဖြည့်ပြီး နည်းပါးတဲ့ rewards တွေဆီ ဦးတည်စေတဲ့ actions တွေကို ရှောင်ရှားသည်။</td></tr> <tr><td>၅။ Iteration</td> <td>လုပ်ငန်းစဉ်ကို ထပ်ခါတလဲလဲ လုပ်ဆောင်သည်။</td> <td>ဒီ cycle က ဆက်လက်ဖြစ်ပေါ်ပြီး agent ကို ဆုံးဖြတ်ချက်ချမှတ်မှုမှာ ဆက်တိုက်တိုးတက်အောင် လုပ်ဆောင်စေသည်။</td></tr></tbody></table> <p data-svelte-h="svelte-11qqu1n">စက်ဘီးစီးတတ်ဖို့ သင်ယူတာကို စဉ်းစားကြည့်ပါ။ အစပိုင်းမှာ ယိုင်လဲတာမျိုး ဖြစ်နိုင်ပါတယ် (negative reward!)။ ဒါပေမယ့် သင် ဟန်ချက်ညီညီ စီးနင်းနိုင်တဲ့အခါ ကောင်းကောင်းခံစားရပါလိမ့်မယ် (positive reward!)။ ဒီ feedback ကို အခြေခံပြီး သင့်ရဲ့ actions တွေကို ချိန်ညှိပါ – အနည်းငယ် ကိုင်းတာ၊ ပိုမြန်မြန် နင်းတာ စသည်ဖြင့် – သင် ကောင်းကောင်းစီးတတ်လာတဲ့အထိပါပဲ။ RL ကလည်း အလားတူပါပဲ – အပြန်အလှန်ဆက်ဆံမှုနဲ့ feedback ကနေတစ်ဆင့် သင်ယူတာ ဖြစ်ပါတယ်။</p> <h2 class="relative group"><a id="large-language-models-llms-တင-rl--အခနကဏဍ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#large-language-models-llms-တင-rl--အခနကဏဍ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Large Language Models (LLMs) တွင် RL ၏ အခန်းကဏ္ဍ</span></h2> <p data-svelte-h="svelte-154frws">အခု၊ RL ဟာ Large Language Models တွေအတွက် ဘာကြောင့် ဒီလောက်အရေးကြီးတာလဲ။</p> <p data-svelte-h="svelte-1on34kw">ကောင်းမွန်တဲ့ LLMs တွေကို train လုပ်တာက ခက်ခဲပါတယ်။ အင်တာနက်ကနေ ကြီးမားတဲ့ text အမြောက်အမြားနဲ့ train လုပ်နိုင်ပြီး စာကြောင်းတစ်ခုမှာ နောက်စကားလုံးကို ခန့်မှန်းရာမှာ သူတို့ဟာ အလွန်ကောင်းမွန်လာပါတယ်။ <a href="/course/chapter2/1">chapter 2</a> မှာ ကျွန်တော်တို့ သင်ယူခဲ့တဲ့အတိုင်း၊ ဒီလိုနည်းနဲ့ သူတို့က płynne နဲ့ သဒ္ဒါမှန်ကန်တဲ့ text တွေ ထုတ်လုပ်ဖို့ သင်ယူကြတာပါ။</p> <p data-svelte-h="svelte-1njpahr">သို့သော်လည်း၊ ရိုးရှင်းစွာ płynne ဖြစ်နေရုံနဲ့ မလုံလောက်ပါဘူး။ ကျွန်တော်တို့ရဲ့ LLMs တွေက စကားလုံးတွေကို စုစည်းရာမှာ ကောင်းမွန်ရုံထက် ပိုဖြစ်စေချင်ပါတယ်။ ကျွန်တော်တို့က သူတို့ကို အောက်ပါအတိုင်း ဖြစ်စေချင်ပါတယ်-</p> <ul data-svelte-h="svelte-ndlsmn"><li><strong>အထောက်အကူဖြစ်စေခြင်း (Helpful)</strong>: အသုံးဝင်ပြီး သက်ဆိုင်တဲ့ အချက်အလက်တွေကို ပံ့ပိုးပေးခြင်း။</li> <li><strong>အန္တရာယ်ကင်းစေခြင်း (Harmless)</strong>: အဆိပ်အတောက်ဖြစ်စေသော၊ ဘက်လိုက်သော ဒါမှမဟုတ် အန္တရာယ်ရှိသော အကြောင်းအရာများ ထုတ်လုပ်ခြင်းကို ရှောင်ရှားခြင်း။</li> <li><strong>လူသားနှစ်သက်မှုများနှင့် ကိုက်ညီခြင်း (Aligned with Human Preferences)</strong>: လူသားတွေက သဘာဝကျတယ်၊ အထောက်အကူဖြစ်တယ်၊ ဆွဲဆောင်မှုရှိတယ်လို့ ယူဆတဲ့ နည်းလမ်းတွေနဲ့ တုံ့ပြန်ခြင်း။</li></ul> <p data-svelte-h="svelte-1u06fsr">LLM တွေကို pre-training လုပ်တဲ့ နည်းလမ်းတွေက text data ကနေ နောက်စကားလုံးကို ခန့်မှန်းခြင်းအပေါ် အဓိကအားဖြင့် မှီခိုတာကြောင့်၊ ဒီကဏ္ဍတွေမှာ တစ်ခါတစ်ရံ အားနည်းချက်တွေ ရှိနေတတ်ပါတယ်။</p> <p data-svelte-h="svelte-1iskgf7">supervised training ဟာ structured outputs တွေ ထုတ်လုပ်ရာမှာ အလွန်ကောင်းမွန်ပေမယ့်၊ helpful, harmless နဲ့ aligned responses တွေ ထုတ်လုပ်ရာမှာတော့ ထိရောက်မှု နည်းပါးနိုင်ပါတယ်။ <a href="/course/chapter11/1">chapter 11</a> မှာ supervised training အကြောင်းကို ကျွန်တော်တို့ လေ့လာထားပါတယ်။</p> <p data-svelte-h="svelte-1ysfa3d">fine-tuned models တွေက fluent နဲ့ structured text တွေ ထုတ်လုပ်နိုင်ပေမယ့်၊ အချက်အလက်အားဖြင့် မမှန်ကန်တာ၊ ဘက်လိုက်တာ ဒါမှမဟုတ် user ရဲ့ မေးခွန်းကို အထောက်အကူဖြစ်စေတဲ့ နည်းလမ်းနဲ့ တကယ်တမ်း မဖြေဆိုနိုင်တာမျိုး ဖြစ်နိုင်ပါတယ်။</p> <p data-svelte-h="svelte-921e2p"><strong>Reinforcement Learning ကို ကြိုဆိုပါတယ်!</strong> RL က pre-trained LLMs တွေကို ဒီလိုလိုချင်တဲ့ အရည်အသွေးတွေကို ပိုမိုကောင်းမွန်အောင် fine-tune လုပ်ဖို့ နည်းလမ်းတစ်ခုကို ပေးပါတယ်။ ဒါဟာ ကျွန်တော်တို့ရဲ့ LLM ခွေးကို စကားလုံးတွေ płynnie ဟောင်တတ်တဲ့ ခွေးတစ်ကောင်ထက်၊ ကောင်းမွန်စွာ ပြုမူပြီး အထောက်အကူဖြစ်စေတဲ့ အဖော်တစ်ယောက် ဖြစ်လာအောင် ထပ်ဆောင်းလေ့ကျင့်ပေးတာနဲ့ တူပါတယ်။</p> <h2 class="relative group"><a id="reinforcement-learning-from-human-feedback-rlhf" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#reinforcement-learning-from-human-feedback-rlhf"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reinforcement Learning from Human Feedback (RLHF)</span></h2> <p data-svelte-h="svelte-1l6ldvt">language models တွေကို alignment လုပ်ဖို့အတွက် အလွန်ရေပန်းစားတဲ့ နည်းလမ်းတစ်ခုကတော့ <strong>Reinforcement Learning from Human Feedback (RLHF)</strong> ပါ။ RLHF မှာ၊ ကျွန်တော်တို့ဟာ လူသား feedback ကို RL ထဲက “reward” signal အဖြစ် proxy အဖြစ် အသုံးပြုပါတယ်။ ဒါက ဘယ်လိုအလုပ်လုပ်လဲဆိုတာ ကြည့်ရအောင်-</p> <p data-svelte-h="svelte-12r2h96">၁။ <strong>လူသားနှစ်သက်မှုများ ရယူခြင်း (Get Human Preferences)</strong>: LLM က ထုတ်လုပ်ထားတဲ့ မတူညီတဲ့ တုံ့ပြန်မှုတွေကို input prompt တူတူအတွက် လူသားတွေကို နှိုင်းယှဉ်ခိုင်းပြီး သူတို့ ဘယ်တုံ့ပြန်မှုကို ပိုကြိုက်လဲဆိုတာ ပြောခိုင်းနိုင်ပါတယ်။ ဥပမာ၊ “ပြင်သစ်နိုင်ငံရဲ့ မြို့တော်က ဘာလဲ” ဆိုတဲ့ မေးခွန်းရဲ့ မတူညီတဲ့ အဖြေနှစ်ခုကို လူသားတစ်ယောက်ကို ပြသပြီး “ဘယ်အဖြေက ပိုကောင်းလဲ” လို့ မေးနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-1u520yq">၂။ <strong>Reward Model တစ်ခုကို Train လုပ်ခြင်း (Train a Reward Model)</strong>: ဒီလူသားနှစ်သက်မှု data ကို အသုံးပြုပြီး <strong>reward model</strong> လို့ခေါ်တဲ့ သီးခြား model တစ်ခုကို train လုပ်ပါတယ်။ ဒီ reward model က လူသားတွေ ဘယ်လိုတုံ့ပြန်မှုမျိုးကို နှစ်သက်မလဲဆိုတာ ခန့်မှန်းဖို့ သင်ယူပါတယ်။ ဒါက helpfulness, harmlessness နဲ့ human preferences တွေနဲ့ alignment အပေါ်အခြေခံပြီး တုံ့ပြန်မှုတွေကို score လုပ်ဖို့ သင်ယူပါတယ်။</p> <p data-svelte-h="svelte-1qdb3vf">၃။ <strong>RL နဲ့ LLM ကို Fine-tune လုပ်ခြင်း (Fine-tune the LLM with RL)</strong>: အခု ကျွန်တော်တို့ reward model ကို ကျွန်တော်တို့ရဲ့ LLM agent အတွက် environment အဖြစ် အသုံးပြုပါတယ်။ LLM က တုံ့ပြန်မှုတွေ ထုတ်လုပ် (actions) ပြီး reward model က ဒီတုံ့ပြန်မှုတွေကို score လုပ် (rewards တွေ ပေး) ပါတယ်။ အနှစ်ချုပ်ပြောရရင်၊ ကျွန်တော်တို့ဟာ LLM ကို ကျွန်တော်တို့ရဲ့ reward model (လူသားနှစ်သက်မှုတွေကနေ သင်ယူထားတာ) က ကောင်းတယ်လို့ ယူဆတဲ့ text တွေကို ထုတ်လုပ်ဖို့ train နေတာပါ။</p> <p data-svelte-h="svelte-muml2l"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/2.jpg" alt="RL Basic Concept"></p> <p data-svelte-h="svelte-1bpob8">ယေဘူယျအားဖြင့်၊ LLMs တွေမှာ RL ကို အသုံးပြုခြင်းရဲ့ အကျိုးကျေးဇူးတွေကို ကြည့်ရအောင်။</p> <table data-svelte-h="svelte-cwgf5q"><thead><tr><th>အကျိုးကျေးဇူး</th> <th>ဖော်ပြချက်</th></tr></thead> <tbody><tr><td>ထိန်းချုပ်မှု ပိုကောင်းခြင်း</td> <td>RL က LLMs တွေ ထုတ်လုပ်တဲ့ text အမျိုးအစားကို ပိုမိုထိန်းချုပ်နိုင်စေပါတယ်။ helpful ဖြစ်တာ၊ creative ဖြစ်တာ ဒါမှမဟုတ် concise ဖြစ်တာလိုမျိုး သီးခြားပန်းတိုင်တွေနဲ့ ပိုမို aligned ဖြစ်တဲ့ text တွေ ထုတ်လုပ်ဖို့ သူတို့ကို လမ်းညွှန်နိုင်ပါတယ်။</td></tr> <tr><td>လူသားတန်ဖိုးများနှင့် ပိုမိုကိုက်ညီမှု</td> <td>RLHF က အထူးသဖြင့် ရှုပ်ထွေးပြီး တစ်ခါတစ်ရံ subjective ဖြစ်တဲ့ လူသားနှစ်သက်မှုတွေနဲ့ LLMs တွေကို align လုပ်ဖို့ ကူညီပေးပါတယ်။ “ကောင်းမွန်တဲ့ အဖြေတစ်ခုက ဘာကိုဖြစ်စေသလဲ” ဆိုတာအတွက် စည်းမျဉ်းတွေ ရေးဖို့ ခက်ခဲပေမယ့်၊ လူသားတွေက တုံ့ပြန်မှုတွေကို အလွယ်တကူ ဆုံးဖြတ်ပြီး နှိုင်းယှဉ်နိုင်ပါတယ်။ RLHF က model ကို ဒီလူသားဆုံးဖြတ်ချက်တွေကနေ သင်ယူစေပါတယ်။</td></tr> <tr><td>မလိုလားအပ်သော Behavior များကို လျှော့ချခြင်း</td> <td>RL ကို LLMs တွေမှာ negative behaviors တွေ လျှော့ချဖို့ အသုံးပြုနိုင်ပါတယ်၊ ဥပမာ- toxic language ထုတ်လုပ်တာ၊ မှားယွင်းတဲ့ အချက်အလက် ဖြန့်ဝေတာ ဒါမှမဟုတ် biases တွေ ပြသတာမျိုးပါ။ ဒီ behaviors တွေကို penalize လုပ်တဲ့ rewards တွေကို ဒီဇိုင်းဆွဲခြင်းဖြင့်၊ model ကို ဒါတွေ ရှောင်ရှားဖို့ လှုံ့ဆော်နိုင်ပါတယ်။</td></tr></tbody></table> <p data-svelte-h="svelte-ywyd69">Reinforcement Learning from Human Feedback ကို ဒီနေ့ခေတ် လူကြိုက်အများဆုံး LLMs များစွာကို လေ့ကျင့်ရာမှာ အသုံးပြုခဲ့ပါတယ်။ ဥပမာ- OpenAI ရဲ့ GPT-4၊ Google ရဲ့ Gemini နဲ့ DeepSeek ရဲ့ R1 တို့ပါပဲ။ RLHF အတွက် ရှုပ်ထွေးမှုနဲ့ အဆင့်အတန်းအမျိုးမျိုးရှိတဲ့ နည်းလမ်းများစွာ ရှိပါတယ်။ ဒီအခန်းမှာ၊ ကျွန်တော်တို့ဟာ Group Relative Policy Optimization (GRPO) ကို အဓိကထား လေ့လာသွားမှာဖြစ်ပါတယ်။ ဒါဟာ helpful, harmless နဲ့ human preferences တွေနဲ့ aligned ဖြစ်တဲ့ LLMs တွေကို လေ့ကျင့်ရာမှာ ထိရောက်မှုရှိကြောင်း ပြသထားတဲ့ RLHF နည်းလမ်းတစ်ခုပါ။</p> <h2 class="relative group"><a id="grpo-group-relative-policy-optimization-က-ဘကင-ဂရစကသငသလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#grpo-group-relative-policy-optimization-က-ဘကင-ဂရစကသငသလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>GRPO (Group Relative Policy Optimization) ကို ဘာကြောင့် ဂရုစိုက်သင့်သလဲ။</span></h2> <p data-svelte-h="svelte-ngcypm">RLHF အတွက် နည်းလမ်းများစွာရှိပေမယ့် ဒီသင်တန်းက GRPO ကို အဓိကထားပါတယ်။ ဘာလို့လဲဆိုတော့ ဒါက language models တွေအတွက် reinforcement learning မှာ အရေးပါတဲ့ တိုးတက်မှုကို ကိုယ်စားပြုလို့ပါပဲ။</p> <p data-svelte-h="svelte-xtlaks">RLHF အတွက် အခြားရေပန်းစားတဲ့ နည်းလမ်းနှစ်ခုကို အတိုချုံးကြည့်ရအောင်။</p> <ul data-svelte-h="svelte-19pdi9y"><li>Proximal Policy Optimization (PPO)</li> <li>Direct Preference Optimization (DPO)</li></ul> <p data-svelte-h="svelte-tkk4d">Proximal Policy Optimization (PPO) ဟာ RLHF အတွက် ပထမဆုံး အလွန်ထိရောက်တဲ့ နည်းလမ်းတွေထဲက တစ်ခုပါ။ ဒါက policy gradient method ကို အသုံးပြုပြီး သီးခြား reward model တစ်ခုကနေ ရရှိတဲ့ reward ကို အခြေခံပြီး policy ကို update လုပ်ပါတယ်။</p> <p data-svelte-h="svelte-jyzdzy">Direct Preference Optimization (DPO) ကို နောက်ပိုင်းမှာ ပိုမိုရိုးရှင်းတဲ့ နည်းလမ်းအဖြစ် ဖော်ထုတ်ခဲ့ပါတယ်။ ဒါက သီးခြား reward model တစ်ခု မလိုအပ်ဘဲ preference data ကို တိုက်ရိုက်အသုံးပြုပါတယ်။ အနှစ်ချုပ်ပြောရရင်၊ ပြဿနာကို ရွေးချယ်ထားတဲ့ တုံ့ပြန်မှုနဲ့ ပယ်ချခံရတဲ့ တုံ့ပြန်မှုတွေကြားက classification task အဖြစ် ပုံစံချတာပါ။</p> <blockquote class="tip" data-svelte-h="svelte-q9kgfs"><p>DPO နဲ့ PPO ဟာ ၎င်းတို့ကိုယ်တိုင် ရှုပ်ထွေးတဲ့ reinforcement learning algorithms တွေဖြစ်ပြီး ဒီသင်တန်းမှာ ကျွန်တော်တို့ ဖော်ပြမှာ မဟုတ်ပါဘူး။ သင် ဒါတွေအကြောင်း ပိုမိုလေ့လာချင်တယ်ဆိုရင် အောက်ပါအရင်းအမြစ်တွေကို ကြည့်ရှုနိုင်ပါတယ်။</p> <ul><li><a href="https://huggingface.co/docs/trl/main/en/ppo_trainer" rel="nofollow">Proximal Policy Optimization</a></li> <li><a href="https://huggingface.co/docs/trl/main/en/dpo_trainer" rel="nofollow">Direct Preference Optimization</a></li></ul></blockquote> <p data-svelte-h="svelte-1xc2yc7">DPO နဲ့ PPO တွေနဲ့ မတူတာက GRPO က ဆင်တူတဲ့ samples တွေကို အုပ်စုဖွဲ့ပြီး အုပ်စုတစ်စုအဖြစ် နှိုင်းယှဉ်ပါတယ်။ group-based ချဉ်းကပ်မှုက အခြားနည်းလမ်းတွေနဲ့ နှိုင်းယှဉ်ရင် ပိုမိုတည်ငြိမ်တဲ့ gradients တွေနဲ့ ပိုကောင်းတဲ့ convergence properties တွေကို ပေးပါတယ်။</p> <p data-svelte-h="svelte-1nzkqkl">GRPO က DPO လို preference data ကို အသုံးပြုတာ မဟုတ်ပါဘူး၊ ဒါပေမယ့် model ဒါမှမဟုတ် function တစ်ခုကနေ reward signal ကို အသုံးပြုပြီး ဆင်တူတဲ့ samples အုပ်စုတွေကို နှိုင်းယှဉ်ပါတယ်။</p> <p data-svelte-h="svelte-1pnf8pl">GRPO က reward signals တွေ ရယူရာမှာ ပြောင်းလွယ်ပြင်လွယ်ရှိပါတယ် – ဒါက reward model (PPO လိုပဲ) နဲ့ အလုပ်လုပ်နိုင်ပေမယ့်၊ သီးခြားတစ်ခုကို တင်းတင်းကျပ်ကျပ် မလိုအပ်ပါဘူး။ ဒါက ဘာလို့လဲဆိုတော့ GRPO က တုံ့ပြန်မှုတွေရဲ့ အရည်အသွေးကို အကဲဖြတ်နိုင်တဲ့ မည်သည့် function ဒါမှမဟုတ် model ကနေမဆို reward signals တွေကို ပေါင်းစပ်နိုင်လို့ပါပဲ။</p> <p data-svelte-h="svelte-1wjv0ls">ဥပမာ၊ ကျွန်တော်တို့ဟာ ပိုတိုတဲ့ တုံ့ပြန်မှုတွေအတွက် reward ပေးဖို့ length function တစ်ခုကို အသုံးပြုနိုင်ပါတယ်၊ ဖြေရှင်းချက် မှန်ကန်မှုကို စစ်ဆေးဖို့ mathematical solver ကို အသုံးပြုနိုင်ပါတယ်၊ ဒါမှမဟုတ် အချက်အလက်မှန်ကန်မှု ပိုမိုမြင့်မားတဲ့ တုံ့ပြန်မှုတွေအတွက် reward ပေးဖို့ factual correctness function ကို အသုံးပြုနိုင်ပါတယ်။ ဒီပြောင်းလွယ်ပြင်လွယ်ရှိမှုက GRPO ကို မတူညီတဲ့ alignment tasks တွေအတွက် အထူးသဖြင့် အသုံးဝင်စေပါတယ်။</p> <hr> <p data-svelte-h="svelte-ehqmpo">Module 1 ပြီးဆုံးသွားတဲ့အတွက် ဂုဏ်ယူပါတယ်။ Reinforcement Learning နဲ့ Large Language Models တွေရဲ့ အနာဂတ်ကို ပုံဖော်ရာမှာ ၎င်းရဲ့ အရေးပါတဲ့ အခန်းကဏ္ဍအကြောင်း ခိုင်မာတဲ့ နိဒါန်းတစ်ခုကို အခု သင်ရရှိခဲ့ပါပြီ။ RL ရဲ့ အခြေခံအယူအဆတွေကို သင်နားလည်ပါပြီ၊ LLMs တွေအတွက် ဘာကြောင့် အသုံးပြုရလဲဆိုတာကို သိပြီး၊ ဒီနယ်ပယ်ရဲ့ အဓိက algorithm တစ်ခုဖြစ်တဲ့ GRPO ကို သင်မိတ်ဆက်ခံခဲ့ရပါပြီ။</p> <p data-svelte-h="svelte-kafnk1">နောက် module မှာတော့ ကျွန်တော်တို့ လက်တွေ့ကျကျ လုပ်ဆောင်ပြီး ဒီအယူအဆတွေကို လက်တွေ့မှာ ဘယ်လိုအလုပ်လုပ်လဲဆိုတာ ကြည့်ဖို့ DeepSeek R1 paper ထဲကို နက်နက်နဲနဲ လေ့လာသွားမှာပါ။</p> <h2 class="relative group"><a id="မခနမ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#မခနမ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>မေးခွန်းများ</span></h2> <h3 class="relative group"><a id="၁-reinforcement-learning--အဓက-အစတအပငမက-ဘတလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၁-reinforcement-learning--အဓက-အစတအပငမက-ဘတလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၁။ Reinforcement Learning ၏ အဓိက အစိတ်အပိုင်းများက ဘာတွေလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->Agent, Environment, Action, Reward, နှင့် Policy<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->Model, Data, Loss Function, နှင့် Optimizer<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->Input, Output, နှင့် Hidden Layers<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၂-language-models-တ-train-ဖ-rlhf-ရ-အဓက-အကကဇက-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၂-language-models-တ-train-ဖ-rlhf-ရ-အဓက-အကကဇက-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၂။ Language Models တွေ train ဖို့ RLHF ရဲ့ အဓိက အကျိုးကျေးဇူးက ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->ဒါက models တွေကို လူသားနှစ်သက်မှုတွေနဲ့ တန်ဖိုးတွေနဲ့ align လုပ်ဖို့ ကူညီပေးတယ်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->ဒါက models တွေကို text တွေ ပိုမြန်မြန် ထုတ်လုပ်စေတယ်<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->ဒါက model ရဲ့ memory အသုံးပြုမှုကို လျှော့ချတယ်<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၃-llms-တအတက-rl-အခအနမ-action-ဆတ-ဘက-ကယစပလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၃-llms-တအတက-rl-အခအနမ-action-ဆတ-ဘက-ကယစပလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၃။ LLMs တွေအတွက် RL အခြေအနေမှာ၊ “action” ဆိုတာ ဘာကို ကိုယ်စားပြုလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->စကားပြောဆိုမှုတစ်ခုမှာ စကားလုံးတွေ ထုတ်လုပ်တာ ဒါမှမဟုတ် တုံ့ပြန်မှုတွေ ရွေးချယ်တာ<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->model weights တွေ update လုပ်တာ<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->input tokens တွေ process လုပ်တာ<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၄-language-models-တရ-rl-training-မ-reward-ရ-အခနကဏဍက-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၄-language-models-တရ-rl-training-မ-reward-ရ-အခနကဏဍက-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၄။ Language models တွေရဲ့ RL training မှာ reward ရဲ့ အခန်းကဏ္ဍက ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->model ရဲ့ တုံ့ပြန်မှုတွေက လိုချင်တဲ့ behavior တွေနဲ့ ဘယ်လောက်ကိုက်ညီလဲဆိုတဲ့ feedback ကို ပေးဖို့<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->model ရဲ့ vocabulary size ကို တိုင်းတာဖို့<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->model ရဲ့ training speed ကို ဆုံးဖြတ်ဖို့<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="၅-llms-တအတက-rl-အခအနမ-reward-ဆတ-ဘလ" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#၅-llms-တအတက-rl-အခအနမ-reward-ဆတ-ဘလ"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>၅။ LLMs တွေအတွက် RL အခြေအနေမှာ reward ဆိုတာ ဘာလဲ။</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->တုံ့ပြန်မှုတစ်ခုရဲ့ အရည်အသွေးကို တိုင်းတာတဲ့ ကိန်းဂဏန်း score တစ်ခု<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->တုံ့ပြန်မှုတွေ ထုတ်လုပ်တဲ့ function တစ်ခု<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->တုံ့ပြန်မှုတွေရဲ့ အရည်အသွေးကို အကဲဖြတ်တဲ့ model တစ်ခု<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-z0yxlx"><li><strong>Reinforcement Learning (RL)</strong>: Agent တစ်ခုက environment တစ်ခုနဲ့ အပြန်အလှန်ဆက်ဆံပြီး trial-and-error ကနေတစ်ဆင့် သင်ယူကာ rewards များကို အမြင့်ဆုံးရရှိစေမယ့် actions တွေကို ရွေးချယ်ဖို့ သင်ယူတဲ့ Machine Learning နယ်ပယ်တစ်ခု။</li> <li><strong>Language Models (LLMs)</strong>: လူသားဘာသာစကားကို နားလည်ပြီး ထုတ်လုပ်ပေးနိုင်တဲ့ အလွန်ကြီးမားတဲ့ Artificial Intelligence (AI) မော်ဒယ်တွေ ဖြစ်ပါတယ်။</li> <li><strong>Agent</strong>: Reinforcement Learning (RL) စနစ်တစ်ခုတွင် environment နှင့် အပြန်အလှန်ဆက်ဆံပြီး ဆုံးဖြတ်ချက်များချကာ သင်ယူသော အစိတ်အပိုင်း။</li> <li><strong>Environment</strong>: Reinforcement Learning (RL) စနစ်တစ်ခုတွင် agent နေထိုင်ပြီး အပြန်အလှန်ဆက်ဆံသည့် ကမ္ဘာ သို့မဟုတ် အခြေအနေ။ ၎င်းသည် agent ၏ actions များကို တုံ့ပြန်ပြီး rewards များကို ပေးသည်။</li> <li><strong>Reward</strong>: Reinforcement Learning (RL) တွင် agent ၏ action တစ်ခုပြီးနောက် environment က agent ကို ပေးသော feedback (များသောအားဖြင့် ကိန်းဂဏန်းတန်ဖိုး)။ Positive reward သည် ကောင်းမွန်သော action ကိုညွှန်ပြပြီး negative reward (penalty) သည် မကောင်းသော action ကိုညွှန်ပြသည်။</li> <li><strong>Action</strong>: Reinforcement Learning (RL) တွင် agent က environment ထဲ၌ လုပ်ဆောင်နိုင်သော ရွေးချယ်မှု သို့မဟုတ် လုပ်ဆောင်ချက်။</li> <li><strong>Policy</strong>: Reinforcement Learning (RL) တွင် agent ၏ strategy (ဗျူဟာ) ဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေတစ်ခုတွင် မည်သည့် action ကို ရွေးချယ်ရမည်ကို ဆုံးဖြတ်ပေးသော စည်းမျဉ်းများ သို့မဟုတ် function တစ်ခု။</li> <li><strong>Trial and Error</strong>: စမ်းသပ်ခြင်းနှင့် မှားယွင်းခြင်း လုပ်ငန်းစဉ်မှတစ်ဆင့် သင်ယူခြင်းနည်းလမ်း။</li> <li><strong>Observation</strong>: Agent က environment ၏ လက်ရှိအခြေအနေနှင့် ပတ်ဝန်းကျင်အကြောင်း အချက်အလက်များကို ရယူခြင်း။</li> <li><strong>Feedback</strong>: လုပ်ဆောင်ချက်တစ်ခု၏ ရလဒ်နှင့်ပတ်သက်သော အချက်အလက်။</li> <li><strong>Learning</strong>: Agent က reward ကို အခြေခံပြီး သူ့ရဲ့ policy ကို ပြင်ဆင်ခြင်း။</li> <li><strong>Iteration</strong>: လုပ်ငန်းစဉ်တစ်ခုကို ထပ်ခါတလဲလဲ လုပ်ဆောင်ခြင်း။</li> <li><strong>Fluent Text</strong>: သဘာဝကျပြီး သဒ္ဒါမှန်ကန်သော စာသား။</li> <li><strong>Grammatically Correct Text</strong>: သဒ္ဒါစည်းမျဉ်းများနှင့် ကိုက်ညီသော စာသား။</li> <li><strong>Helpful</strong>: အသုံးဝင်ပြီး သက်ဆိုင်သော အချက်အလက်များကို ပံ့ပိုးပေးခြင်း။</li> <li><strong>Harmless</strong>: အဆိပ်အတောက်ဖြစ်စေသော၊ ဘက်လိုက်သော ဒါမှမဟုတ် အန္တရာယ်ရှိသော အကြောင်းအရာများ ထုတ်လုပ်ခြင်းကို ရှောင်ရှားခြင်း။</li> <li><strong>Aligned with Human Preferences</strong>: လူသားနှစ်သက်မှုများနှင့် ကိုက်ညီသော တုံ့ပြန်မှုများ။</li> <li><strong>Pre-training LLM Methods</strong>: LLM များကို ကနဦး လေ့ကျင့်သော နည်းလမ်းများ (များသောအားဖြင့် text data မှ နောက်စကားလုံးကို ခန့်မှန်းခြင်း)။</li> <li><strong>Supervised Training</strong>: Input data နှင့် ၎င်း၏ သက်ဆိုင်ရာ labels များပါဝင်သော dataset ကို အသုံးပြု၍ model ကို လေ့ကျင့်သော Machine Learning ပုံစံ။</li> <li><strong>Structured Outputs</strong>: သတ်မှတ်ထားသော ပုံစံ သို့မဟုတ် format ရှိသော output များ။</li> <li><strong>Fine-tuned Models</strong>: ကြိုတင်လေ့ကျင့်ထားပြီးသား model တစ်ခုကို သီးခြား task တစ်ခုအတွက် ထပ်မံလေ့ကျင့်ထားသော model များ။</li> <li><strong>Factually Incorrect</strong>: အချက်အလက်အားဖြင့် မမှန်ကန်သော။</li> <li><strong>Biased</strong>: ဘက်လိုက်မှုရှိသော။</li> <li><strong>Reinforcement Learning from Human Feedback (RLHF)</strong>: လူသား feedback ကို reward signal အဖြစ် အသုံးပြုပြီး language models များကို fine-tune လုပ်သော RL နည်းလမ်း။</li> <li><strong>Human Preferences</strong>: လူသားများ၏ နှစ်သက်မှု သို့မဟုတ် ရွေးချယ်မှုများ။</li> <li><strong>Proxy</strong>: မူရင်းအရာကို ကိုယ်စားပြုသော အရာ။</li> <li><strong>Reward Model</strong>: လူသားနှစ်သက်မှု data ဖြင့် လေ့ကျင့်ထားသော သီးခြား model တစ်ခုဖြစ်ပြီး LLM မှ ထုတ်လုပ်သော တုံ့ပြန်မှုများ၏ အရည်အသွေးကို ခန့်မှန်းပြီး score ပေးသည်။</li> <li><strong>Algorithmic Biases</strong>: AI algorithms များ၏ ဆုံးဖြတ်ချက်များတွင် ဒေတာ သို့မဟုတ် ဒီဇိုင်းကြောင့် ဖြစ်ပေါ်လာသော ဘက်လိုက်မှုများ။</li> <li><strong>Group Relative Policy Optimization (GRPO)</strong>: RLHF နည်းလမ်းတစ်ခုဖြစ်ပြီး ဆင်တူသော samples များကို အုပ်စုဖွဲ့ကာ ၎င်းတို့ကို အုပ်စုလိုက် နှိုင်းယှဉ်၍ policy ကို update လုပ်သည်။</li> <li><strong>Proximal Policy Optimization (PPO)</strong>: Policy gradient method ကို အသုံးပြုပြီး reward model မှ reward ကို အခြေခံ၍ policy ကို update လုပ်သော RLHF နည်းလမ်း။</li> <li><strong>Direct Preference Optimization (DPO)</strong>: သီးခြား reward model မလိုအပ်ဘဲ preference data ကို တိုက်ရိုက်အသုံးပြုပြီး classification task အဖြစ် framing လုပ်၍ policy ကို update လုပ်သော RLHF နည်းလမ်း။</li> <li><strong>Policy Gradient Method</strong>: Reinforcement Learning တွင် agent ၏ policy ကို တိုက်ရိုက် optimize လုပ်သော algorithm အမျိုးအစား။</li> <li><strong>Preference Data</strong>: လူသားများက မတူညီသော output များကို နှိုင်းယှဉ်ပြီး ပိုနှစ်သက်သော output ကို ရွေးချယ်ထားသော data။</li> <li><strong>Classification Task</strong>: ဒေတာအချက်အလက်များကို သတ်မှတ်ထားသော အမျိုးအစားများ သို့မဟုတ် အတန်းများထဲသို့ ခွဲခြားသတ်မှတ်ခြင်း လုပ်ငန်း။</li> <li><strong>Gradients</strong>: Model parameters များ ပြောင်းလဲသွားသောအခါ loss function ၏ တန်ဖိုး မည်သို့ပြောင်းလဲသည်ကို ပြသသော တန်ဖိုးများ။ Training လုပ်ငန်းစဉ်တွင် parameters များကို ချိန်ညှိရန် အသုံးပြုသည်။</li> <li><strong>Convergence Properties</strong>: Training လုပ်ငန်းစဉ်တစ်ခုက အမှန်တကယ် optimum သို့မဟုတ် ကောင်းမွန်သော solution သို့ ရောက်ရှိနိုင်သည့် အလားအလာနှင့် မြန်နှုန်း။</li> <li><strong>Length Function</strong>: စာသား၏ အရှည်ကို တိုင်းတာသော function။</li> <li><strong>Mathematical Solver</strong>: သင်္ချာဆိုင်ရာ ပြဿနာများကို ဖြေရှင်းပေးသော algorithm သို့မဟုတ် program။</li> <li><strong>Factual Correctness Function</strong>: စာသား၏ အချက်အလက်မှန်ကန်မှုကို အကဲဖြတ်သော function။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter12/2.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>

	<script>
	{
	__sveltekit_5q47hu = {
	assets: "/docs/course/pr_1095/my",
	base: "/docs/course/pr_1095/my",
	env: {}
	};

	const element = document.currentScript.parentElement;

	const data = [null,null];

	Promise.all([
	import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"),
	import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js")
	]).then(([kit, app]) => {
	kit.start(app, element, {
	node_ids: [0, 29],
	data,
	form: null,
	error: null
	});
	});
	}
	</script>

Xet Storage Details

Size:: 84.8 kB
Xet hash:: 41ff27df104de2a85453e3099662f317510ad1f3f8c82cbc2e360338dbe9d25c

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.