Buckets:

rtrm's picture
download
raw
35.7 kB
import{s as Zt,o as gt,n as st}from"../chunks/scheduler.37c15a92.js";import{S as _t,i as Ct,g as u,s as a,r,A as kt,h as d,f as s,c as n,j as Ut,u as o,x as y,k as Gt,y as Rt,a as l,v as m,d as c,t as M,w as f}from"../chunks/index.2bf4358c.js";import{T as Oe}from"../chunks/Tip.363c041f.js";import{Y as et}from"../chunks/Youtube.1e50a667.js";import{C as w}from"../chunks/CodeBlock.4e987730.js";import{C as Wt}from"../chunks/CourseFloatingBanner.6add7356.js";import{F as Xt}from"../chunks/FrameworkSwitchCourse.8d4d4ab6.js";import{H as tt,E as It}from"../chunks/getInferenceSnippets.24b50994.js";function zt(b){let p,h="ควรสังเกตว่าโมเดล 🤗 Transformers มีความสามารถพิเศษที่โมเดล Keras ส่วนใหญ่ไม่มี นั่นก็คือ พวกมันสามารถเลือก loss ที่เหมาะสมได้เอง โดยมันจะใช้ค่า loss นี้เป็นค่าเริ่มต้นหากคุณไม่ได้ใส่อากิวเมนต์ loss ในเมธอด <code>compile()</code> นอกจากนี้ควรระวังว่า การจะใช้ internal loss คุณจะต้องส่ง labels ของคุณเข้าไปเป็นส่วนหนึ่งของ input ด้วย ห้ามส่งแยกกัน ซึ่งเป็นวิธีการปกติที่ใช้จัดการกับ labels กับโมเดล Keras คุณจะเป็นตัวอย่างนี้ใน Part 2 ของคอร์ส ซึ่งการจะกำหนด loss function ให้ถูกต้องนั้นจะยุ่งยากเล็กน้อย อย่างไรก็ตาม สำหรับงาน sequence classification สามารถใช้ standard Keras loss function ได้โดยไม่มีปัญหา ซึ่งเราก็จะใช้แบบนั้นในตัวอย่างนี้";return{c(){p=u("p"),p.innerHTML=h},l(i){p=d(i,"P",{"data-svelte-h":!0}),y(p)!=="svelte-8fo539"&&(p.innerHTML=h)},m(i,$){l(i,p,$)},p:st,d(i){i&&s(p)}}}function vt(b){let p,h="ให้ระวังข้อผิดพลาดที่เกิดขึ้นบ่อยตรงนี้ - คุณ <em>สามารถ</em> แค่ใส่ชื่อของ loss เป็น string เข้าไปใน Keras แต่โดยค่าเริ่มต้นแล้ว Keras จะสันนิษฐานว่าคุณได้ใช้ softmax กับ outputs ของคุณไปแล้ว อย่างไรก็ตามมีโมเดลจำนวนมากที่ให้ผลลัพธ์เป็นค่าก่อนที่จะใช้ softmax ซึ่งเรียกว่า logits เราจะต้องบอก loss function ว่าโมเดลของเราทำอะไร และวิธีการเดียวที่จะทำได้คือการ call โดยตรง ไม่ใช่การส่งชื่อที่เป็น string เข้าไป";return{c(){p=u("p"),p.innerHTML=h},l(i){p=d(i,"P",{"data-svelte-h":!0}),y(p)!=="svelte-10zipaj"&&(p.innerHTML=h)},m(i,$){l(i,p,$)},p:st,d(i){i&&s(p)}}}function Ft(b){let p,h="ไลบรารี่ 🤗 Transformers ก็มีฟังก์ชั่น <code>create_optimizer()</code> ซึ่งจะสร้าง <code>AdamW</code> optimizer โดยใช้ learning rate decay ซึ่งเป็นทางลัดที่สะดวก และคุณจะได้เห็นรายละเอียดใน section ต่อ ๆ ไปในคอร์ส";return{c(){p=u("p"),p.innerHTML=h},l(i){p=d(i,"P",{"data-svelte-h":!0}),y(p)!=="svelte-1lsyz1g"&&(p.innerHTML=h)},m(i,$){l(i,p,$)},p:st,d(i){i&&s(p)}}}function Vt(b){let p,h='💡 ถ้าคุณต้องการจะอัพโหลดโมเดลของคุณขึ้น Hub ระหว่างที่ทำการเทรนโดยอัตโนมัติ ให้ใส่ <code>push_to_hub=True</code> เข้าไปใน <code>TrainingArguments</code> ด้วย โดยเราจะเรียนรู้เพิ่มเติมใน <a href="/course/chapter4/3">Chapter 4</a>';return{c(){p=u("p"),p.innerHTML=h},l(i){p=d(i,"P",{"data-svelte-h":!0}),y(p)!=="svelte-t794qd"&&(p.innerHTML=h)},m(i,$){l(i,p,$)},p:st,d(i){i&&s(p)}}}function Yt(b){let p,h,i,$,J,me,Z,ce,g,Me,_,lt='หลังจากที่คุณได้ทำการประมวลผลข้อมูลใน section ที่แล้ว ก็เหลืองานอีกไม่กี่ขั้นตอนเท่านั้นในการเทรนโมเดล ควรระวังไว้ว่าคำสั่ง <code>model.fit()</code> จะรันบน CPU ได้ช้ามาก ๆ ถ้าคุณไม่มีการติดตั้ง GPU คุณสามารถเข้าถึง free GPUs หรือ TPUs ได้บน <a href="https://colab.research.google.com/" rel="nofollow">Google Colab</a>',fe,C,at="โค้ดตัวอย่างข้างล่างนี้สันนิษฐานไว้ว่าคุณได้ทำตัวอย่างใน section ที่แล้วเรียบร้อยแล้ว นี่คือการสรุปสั้น ๆ เพื่อทบทวนสิ่งที่คุณต้องเตรียมให้พร้อม:",ue,k,de,R,ye,W,nt="โมเดล TensorFlow ที่ import มาจากไลบรารี่ 🤗 Transformers นั้นเป็นโมเดล Keras อยู่แล้ว นี่คือการแนะนำสั้น ๆ ให้รู้จักกับ Keras",he,X,$e,I,pt="นั่นหมายความว่า เมื่อเรามีข้อมูลแล้ว ก็เหลืองานแค่เล็กน้อยที่ต้องทำก่อนจะเริ่มเทรนโมเดลด้วยข้อมูลของเรา",be,z,we,v,it='เหมือนกับใน <a href="/course/chapter2">previous chapter</a> เราจะใช้ <code>AutoModelForSequenceClassification</code> class โดยมี 2 labels:',Je,F,Te,V,rt='คุณจะสังเกตได้ว่าคุณจะได้รับคำเตือนหลังจากที่สร้างโมเดลขึ้นมา ไม่เหมือนกับใน <a href="/course/chapter2">Chapter 2</a> ที่เป็นเช่นนี้เนื่องจาก BERT ยังไม่ได้มีการ pretrained ให้สามารถจำแนกคู่ประโยค ดังนั้น head ของโมเดลที่เทรนไว้แล้วจะถูกตัดทิ้งไป และจะใส่ head ใหม่ที่เหมาะกับการจำแนกลำดับ (sequence classification) เข้ามาแทน คำเตือนนี้เป็นการแจ้งว่า weights บางส่วนจะไม่ถูกนำมาใช้ (weights ของ head ที่ถูกตัดทิ้งไป) และ weights บางส่วน (ของ head ใหม่) จะถูกสร้างขึ้นแบบสุ่ม (randomly initialized) และจบคำเตือนโดยการส่งเสริมให้เราเทรนโมเดล ซึ่งก็เป็นสิ่งที่เรากำลังจะทำตอนนี้',je,Y,ot=`เพื่อจะ fine-tune โมเดลด้วย dataset ของเรา เราแค่ต้องทำการ <code>compile()</code> โมเดลของเราแล้วส่งข้อมูลเข้าโดยใช้เมธอด <code>fit()</code> ซึ่งจะเป็นการเริ่ม fine-tuning (ซึ่งจะใช้เวลาไม่กี่นาทีบน GPU) และรายงาน training loss ระหว่างการเทรน รวมถึง validation loss เมื่อจบแต่ละ epoch
To fine-tune the model on our dataset, we just have to <code>compile()</code> our model and then pass our data to the <code>fit()</code> method. This will start the fine-tuning process (which should take a couple of minutes on a GPU) and report training loss as it goes, plus the validation loss at the end of each epoch.`,Ue,T,Ge,H,Ze,j,ge,Q,_e,B,Ce,x,mt=`ถ้าคุณลองโค้ดข้างต้น มันก็จะรันได้ แต่คุณจะพบว่า loss จะลดลงได้ช้ามาก หรือลดลงเพียงบางช่วง ซึ่งสาเหตุหลักมาจาก <em>learning rate</em>
ซึ่งก็เหมือนกับ loss ถ้าเราส่งชื่อของ optimizer เป็น string เข้าไป Keras จะ initialize ตัว optimizer นั้นด้วยค่าเริ่มต้นสำหรับทุก ๆ parameters รวมถึง learning rate ด้วย
แต่จากประสบการณ์ที่ยาวนาน เรารู้ว่าโมเดล transformer จะได้ประโยชน์จาก learning rate ที่มีค่าต่ำมากกว่าค่าเริ่มต้นของ Adam (ซึ่งมีค่าเริ่มต้นคือ 1e-3 หรือ 10 ยกกำลัง -3 หรือ 0.001.)
ค่า learning rate ที่ 5e-5 (0.00005) ซึ่งน้อยกว่าค่าเริ่มต้นของ Adam ถึง 20 เท่า เป็นค่าที่เหมาะกับการเริ่มต้นมากกว่า`,ke,N,ct=`นอกเหนือไปจากการลด learning rate เรายังมี trick อีกอย่างหนึ่งคือ เราสามารถลด learning rate ลงอย่างช้า ๆ ได้ ซึ่งในงานวิจัยคุณมักจะเห็นการทำเช่นนี้ถูกเรียกว่า
<em>decaying</em> หรือ <em>annealing</em> the learning rate ซึ่งใน Keras วิธีการที่ดีที่สุดก็คือการใช้ <em>learning rate scheduler</em> โดยตัวที่น่าใช้คือ
<code>PolynomialDecay</code> โดยมีการตั้งค่าเริ่มต้นให้ลด learning rate ลงแบบ linearly จากค่าเริ่มต้นไปจนถึงค่าสุดท้ายเมื่อจบการเทรน ซึ่งเป็นสิ่งที่เราต้องการ
เพื่อที่จะใช้งาน scheduler ได้อย่างถูกต้อง เราจะต้องระบุว่าจะเทรนนานเท่าไร เราจะคำนวณเวลาในการเทรนเป็น <code>num_train_steps</code> ดังโค้ดข้างล่างนี้`,Re,E,We,U,Xe,S,Mt="ตอนนี้เราก็มี optimizer ตัวใหม่เอี่ยม และสามารถนำไปลองเทรนได้เลย ขั้นแรก เรามาโหลดโมเดลขึ้นมากใหม่ เพื่อ reset weights จากการเทรนก่อนหน้านี้ จากนั้นเราก็จะ compile โมเดลโดยใช้ optimizer ตัวใหม่",Ie,q,ze,A,ft="ตอนนี้เราก็ fit อีกรอบได้เลย:",ve,L,Fe,G,Ve,P,Ye,D,He,K,ut="การเทรน และการมองดู loss ค่อย ๆ ลดลงนั้นเยี่ยมไปเลย แต่ถ้าสิ่งที่เราต้องการจริง ๆ คือการเอาผลลัพธ์จากโมเดลไปประเมินผล หรือนำไปใช้งานจริงใน production ล่ะ? เพื่อจะทำอย่างนั้น เราก็แค่ใช้เมธอด <code>predict()</code> ก็จะได้ผลลัพธ์เป็น <em>logits</em> จาก output head ของโมเดล (หนึ่งตัวต่อหนึ่งคลาส)",Qe,O,Be,ee,dt="เราสามารถแปลง logits เหล่านี้เป็นการทำนาย class ได้โดยการใช้ <code>argmax</code> เพื่อหา logit ที่มีค่าสูงสุด ซึ่งจะตรงกับ class ที่มีความน่าจะเป็นมากที่สุด:",xe,te,Ne,se,Ee,le,yt="ตอนนี้เรามาใช้ <code>preds</code> เพื่อคำนวณ metrics บางอย่างกันดีกว่า! เราสามารถโหลด metrics ที่เกี่ยวข้องกับ MRPC dataset ได้อย่างง่ายดายเหมือนกับที่เราโหลดชุดข้อมูล โดยการใช้ฟังก์ชั่น <code>evaluate.load()</code> โดยจะได้ผลลัพธ์เป็นออพเจ็กต์ที่มีเมธอด <code>compute()</code> ที่เราสามารถนำไปใช้ในการคำนวณ metric ได้:",Se,ae,qe,ne,Ae,pe,ht='ผลลัพธ์ที่ได้อาจแตกต่างไปเล็กน้อย เนื่องจากมีการกำหนดค่า weight ของ model head ขึ้นมาแบบสุ่ม และอาจเปลี่ยนผลลัพธ์ใน metrics ได้ ซึ่งตรงนี้เราจะเห็นได้ว่าโมเดลของเราได้ accuracy ที่ 85.78% เมื่อทดสอบด้วย validation set และได้ค่า F1 score ที่ 89.97 ซึ่ง metrics ทั้งสองตัวนี้เป็น metrics ที่ใช้วัดผล MRPC dataset สำหรับ GLUE benchmark โดยตารางในรายงาน <a href="https://arxiv.org/pdf/1810.04805.pdf" rel="nofollow">BERT paper</a> ได้รายงานค่า F1 score ไว้ที่ 88.9 สำหรับ base model ซึ่งเป็นโมเดล <code>uncased</code> ในขณะที่โมเดลของเราเป็นโมเดล <code>cased</code> จึงเป็นเหตุให้มีผลลัพธ์ที่ดีกว่า',Le,ie,$t="ก็เป็นอันเสร็จสิ้นวิธีการ fine-tune โดยใช้ <code>Trainer</code> API ซึ่งตัวอย่างการ fine-tune กับ NLP tasks ส่วนใหญ่ที่ใช้บ่อยจะอยู่ใน Chapter 7 ถ้าคุณอยากฝึกทักษะการใช้ Keras API เพิ่มเติม ให้ลอง fine-tune โมเดลโดยใช้ GLUE SST-2 dataset โดยใช้การประมวลผลข้อมูลแบบที่คุณทำไว้ใน section 2",Pe,re,De,oe,Ke;return J=new Xt({props:{fw:b[0]}}),Z=new tt({props:{title:"การ Fine-tune โมเดลด้วย Keras",local:"การ-fine-tune-โมเดลดวย-keras",headingTag:"h1"}}),g=new Wt({props:{chapter:3,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/th/chapter3/section3_tf.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/th/chapter3/section3_tf.ipynb"}]}}),k=new w({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMkMlMjBEYXRhQ29sbGF0b3JXaXRoUGFkZGluZyUwQWltcG9ydCUyMG51bXB5JTIwYXMlMjBucCUwQSUwQXJhd19kYXRhc2V0cyUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJnbHVlJTIyJTJDJTIwJTIybXJwYyUyMiklMEFjaGVja3BvaW50JTIwJTNEJTIwJTIyYmVydC1iYXNlLXVuY2FzZWQlMjIlMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZChjaGVja3BvaW50KSUwQSUwQSUwQWRlZiUyMHRva2VuaXplX2Z1bmN0aW9uKGV4YW1wbGUpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwdG9rZW5pemVyKGV4YW1wbGUlNUIlMjJzZW50ZW5jZTElMjIlNUQlMkMlMjBleGFtcGxlJTVCJTIyc2VudGVuY2UyJTIyJTVEJTJDJTIwdHJ1bmNhdGlvbiUzRFRydWUpJTBBJTBBJTBBdG9rZW5pemVkX2RhdGFzZXRzJTIwJTNEJTIwcmF3X2RhdGFzZXRzLm1hcCh0b2tlbml6ZV9mdW5jdGlvbiUyQyUyMGJhdGNoZWQlM0RUcnVlKSUwQSUwQWRhdGFfY29sbGF0b3IlMjAlM0QlMjBEYXRhQ29sbGF0b3JXaXRoUGFkZGluZyh0b2tlbml6ZXIlM0R0b2tlbml6ZXIlMkMlMjByZXR1cm5fdGVuc29ycyUzRCUyMnRmJTIyKSUwQSUwQXRmX3RyYWluX2RhdGFzZXQlMjAlM0QlMjB0b2tlbml6ZWRfZGF0YXNldHMlNUIlMjJ0cmFpbiUyMiU1RC50b190Zl9kYXRhc2V0KCUwQSUyMCUyMCUyMCUyMGNvbHVtbnMlM0QlNUIlMjJhdHRlbnRpb25fbWFzayUyMiUyQyUyMCUyMmlucHV0X2lkcyUyMiUyQyUyMCUyMnRva2VuX3R5cGVfaWRzJTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwbGFiZWxfY29scyUzRCU1QiUyMmxhYmVscyUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMHNodWZmbGUlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwY29sbGF0ZV9mbiUzRGRhdGFfY29sbGF0b3IlMkMlMEElMjAlMjAlMjAlMjBiYXRjaF9zaXplJTNEOCUyQyUwQSklMEElMEF0Zl92YWxpZGF0aW9uX2RhdGFzZXQlMjAlM0QlMjB0b2tlbml6ZWRfZGF0YXNldHMlNUIlMjJ2YWxpZGF0aW9uJTIyJTVELnRvX3RmX2RhdGFzZXQoJTBBJTIwJTIwJTIwJTIwY29sdW1ucyUzRCU1QiUyMmF0dGVudGlvbl9tYXNrJTIyJTJDJTIwJTIyaW5wdXRfaWRzJTIyJTJDJTIwJTIydG9rZW5fdHlwZV9pZHMlMjIlNUQlMkMlMEElMjAlMjAlMjAlMjBsYWJlbF9jb2xzJTNEJTVCJTIybGFiZWxzJTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwc2h1ZmZsZSUzREZhbHNlJTJDJTBBJTIwJTIwJTIwJTIwY29sbGF0ZV9mbiUzRGRhdGFfY29sbGF0b3IlMkMlMEElMjAlMjAlMjAlMjBiYXRjaF9zaXplJTNEOCUyQyUwQSk=",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer, DataCollatorWithPadding
<span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mrpc&quot;</span>)
checkpoint = <span class="hljs-string">&quot;bert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_function</span>(<span class="hljs-params">example</span>):
<span class="hljs-keyword">return</span> tokenizer(example[<span class="hljs-string">&quot;sentence1&quot;</span>], example[<span class="hljs-string">&quot;sentence2&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(tokenize_function, batched=<span class="hljs-literal">True</span>)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer, return_tensors=<span class="hljs-string">&quot;tf&quot;</span>)
tf_train_dataset = tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>].to_tf_dataset(
columns=[<span class="hljs-string">&quot;attention_mask&quot;</span>, <span class="hljs-string">&quot;input_ids&quot;</span>, <span class="hljs-string">&quot;token_type_ids&quot;</span>],
label_cols=[<span class="hljs-string">&quot;labels&quot;</span>],
shuffle=<span class="hljs-literal">True</span>,
collate_fn=data_collator,
batch_size=<span class="hljs-number">8</span>,
)
tf_validation_dataset = tokenized_datasets[<span class="hljs-string">&quot;validation&quot;</span>].to_tf_dataset(
columns=[<span class="hljs-string">&quot;attention_mask&quot;</span>, <span class="hljs-string">&quot;input_ids&quot;</span>, <span class="hljs-string">&quot;token_type_ids&quot;</span>],
label_cols=[<span class="hljs-string">&quot;labels&quot;</span>],
shuffle=<span class="hljs-literal">False</span>,
collate_fn=data_collator,
batch_size=<span class="hljs-number">8</span>,
)`,wrap:!1}}),R=new tt({props:{title:"การ Train โมเดล",local:"การ-train-โมเดล",headingTag:"h3"}}),X=new et({props:{id:"rnTGBy2ax1c"}}),z=new et({props:{id:"AUozVp78dhk"}}),F=new w({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMFRGQXV0b01vZGVsRm9yU2VxdWVuY2VDbGFzc2lmaWNhdGlvbiUwQSUwQW1vZGVsJTIwJTNEJTIwVEZBdXRvTW9kZWxGb3JTZXF1ZW5jZUNsYXNzaWZpY2F0aW9uLmZyb21fcHJldHJhaW5lZChjaGVja3BvaW50JTJDJTIwbnVtX2xhYmVscyUzRDIp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> TFAutoModelForSequenceClassification
model = TFAutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=<span class="hljs-number">2</span>)`,wrap:!1}}),T=new Oe({props:{$$slots:{default:[zt]},$$scope:{ctx:b}}}),H=new w({props:{code:"ZnJvbSUyMHRlbnNvcmZsb3cua2VyYXMubG9zc2VzJTIwaW1wb3J0JTIwU3BhcnNlQ2F0ZWdvcmljYWxDcm9zc2VudHJvcHklMEElMEFtb2RlbC5jb21waWxlKCUwQSUyMCUyMCUyMCUyMG9wdGltaXplciUzRCUyMmFkYW0lMjIlMkMlMEElMjAlMjAlMjAlMjBsb3NzJTNEU3BhcnNlQ2F0ZWdvcmljYWxDcm9zc2VudHJvcHkoZnJvbV9sb2dpdHMlM0RUcnVlKSUyQyUwQSUyMCUyMCUyMCUyMG1ldHJpY3MlM0QlNUIlMjJhY2N1cmFjeSUyMiU1RCUyQyUwQSklMEFtb2RlbC5maXQoJTBBJTIwJTIwJTIwJTIwdGZfdHJhaW5fZGF0YXNldCUyQyUwQSUyMCUyMCUyMCUyMHZhbGlkYXRpb25fZGF0YSUzRHRmX3ZhbGlkYXRpb25fZGF0YXNldCUyQyUwQSk=",highlighted:`<span class="hljs-keyword">from</span> tensorflow.keras.losses <span class="hljs-keyword">import</span> SparseCategoricalCrossentropy
model.<span class="hljs-built_in">compile</span>(
optimizer=<span class="hljs-string">&quot;adam&quot;</span>,
loss=SparseCategoricalCrossentropy(from_logits=<span class="hljs-literal">True</span>),
metrics=[<span class="hljs-string">&quot;accuracy&quot;</span>],
)
model.fit(
tf_train_dataset,
validation_data=tf_validation_dataset,
)`,wrap:!1}}),j=new Oe({props:{warning:!0,$$slots:{default:[vt]},$$scope:{ctx:b}}}),Q=new tt({props:{title:"การปรับปรุงประสิทธิภาพในการเทรน",local:"การปรบปรงประสทธภาพในการเทรน",headingTag:"h3"}}),B=new et({props:{id:"cpzq6ESSM5c"}}),E=new w({props:{code:"ZnJvbSUyMHRlbnNvcmZsb3cua2VyYXMub3B0aW1pemVycy5zY2hlZHVsZXMlMjBpbXBvcnQlMjBQb2x5bm9taWFsRGVjYXklMEElMEFiYXRjaF9zaXplJTIwJTNEJTIwOCUwQW51bV9lcG9jaHMlMjAlM0QlMjAzJTBBJTIzJTIwVGhlJTIwbnVtYmVyJTIwb2YlMjB0cmFpbmluZyUyMHN0ZXBzJTIwaXMlMjB0aGUlMjBudW1iZXIlMjBvZiUyMHNhbXBsZXMlMjBpbiUyMHRoZSUyMGRhdGFzZXQlMkMlMjBkaXZpZGVkJTIwYnklMjB0aGUlMjBiYXRjaCUyMHNpemUlMjB0aGVuJTIwbXVsdGlwbGllZCUwQSUyMyUyMGJ5JTIwdGhlJTIwdG90YWwlMjBudW1iZXIlMjBvZiUyMGVwb2Nocy4lMjBOb3RlJTIwdGhhdCUyMHRoZSUyMHRmX3RyYWluX2RhdGFzZXQlMjBoZXJlJTIwaXMlMjBhJTIwYmF0Y2hlZCUyMHRmLmRhdGEuRGF0YXNldCUyQyUwQSUyMyUyMG5vdCUyMHRoZSUyMG9yaWdpbmFsJTIwSHVnZ2luZyUyMEZhY2UlMjBEYXRhc2V0JTJDJTIwc28lMjBpdHMlMjBsZW4oKSUyMGlzJTIwYWxyZWFkeSUyMG51bV9zYW1wbGVzJTIwJTJGJTJGJTIwYmF0Y2hfc2l6ZS4lMEFudW1fdHJhaW5fc3RlcHMlMjAlM0QlMjBsZW4odGZfdHJhaW5fZGF0YXNldCklMjAqJTIwbnVtX2Vwb2NocyUwQWxyX3NjaGVkdWxlciUyMCUzRCUyMFBvbHlub21pYWxEZWNheSglMEElMjAlMjAlMjAlMjBpbml0aWFsX2xlYXJuaW5nX3JhdGUlM0Q1ZS01JTJDJTIwZW5kX2xlYXJuaW5nX3JhdGUlM0QwLjAlMkMlMjBkZWNheV9zdGVwcyUzRG51bV90cmFpbl9zdGVwcyUwQSklMEFmcm9tJTIwdGVuc29yZmxvdy5rZXJhcy5vcHRpbWl6ZXJzJTIwaW1wb3J0JTIwQWRhbSUwQSUwQW9wdCUyMCUzRCUyMEFkYW0obGVhcm5pbmdfcmF0ZSUzRGxyX3NjaGVkdWxlcik=",highlighted:`<span class="hljs-keyword">from</span> tensorflow.keras.optimizers.schedules <span class="hljs-keyword">import</span> PolynomialDecay
batch_size = <span class="hljs-number">8</span>
num_epochs = <span class="hljs-number">3</span>
<span class="hljs-comment"># The number of training steps is the number of samples in the dataset, divided by the batch size then multiplied</span>
<span class="hljs-comment"># by the total number of epochs. Note that the tf_train_dataset here is a batched tf.data.Dataset,</span>
<span class="hljs-comment"># not the original Hugging Face Dataset, so its len() is already num_samples // batch_size.</span>
num_train_steps = <span class="hljs-built_in">len</span>(tf_train_dataset) * num_epochs
lr_scheduler = PolynomialDecay(
initial_learning_rate=<span class="hljs-number">5e-5</span>, end_learning_rate=<span class="hljs-number">0.0</span>, decay_steps=num_train_steps
)
<span class="hljs-keyword">from</span> tensorflow.keras.optimizers <span class="hljs-keyword">import</span> Adam
opt = Adam(learning_rate=lr_scheduler)`,wrap:!1}}),U=new Oe({props:{$$slots:{default:[Ft]},$$scope:{ctx:b}}}),q=new w({props:{code:"aW1wb3J0JTIwdGVuc29yZmxvdyUyMGFzJTIwdGYlMEElMEFtb2RlbCUyMCUzRCUyMFRGQXV0b01vZGVsRm9yU2VxdWVuY2VDbGFzc2lmaWNhdGlvbi5mcm9tX3ByZXRyYWluZWQoY2hlY2twb2ludCUyQyUyMG51bV9sYWJlbHMlM0QyKSUwQWxvc3MlMjAlM0QlMjB0Zi5rZXJhcy5sb3NzZXMuU3BhcnNlQ2F0ZWdvcmljYWxDcm9zc2VudHJvcHkoZnJvbV9sb2dpdHMlM0RUcnVlKSUwQW1vZGVsLmNvbXBpbGUob3B0aW1pemVyJTNEb3B0JTJDJTIwbG9zcyUzRGxvc3MlMkMlMjBtZXRyaWNzJTNEJTVCJTIyYWNjdXJhY3klMjIlNUQp",highlighted:`<span class="hljs-keyword">import</span> tensorflow <span class="hljs-keyword">as</span> tf
model = TFAutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=<span class="hljs-number">2</span>)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=<span class="hljs-literal">True</span>)
model.<span class="hljs-built_in">compile</span>(optimizer=opt, loss=loss, metrics=[<span class="hljs-string">&quot;accuracy&quot;</span>])`,wrap:!1}}),L=new w({props:{code:"bW9kZWwuZml0KHRmX3RyYWluX2RhdGFzZXQlMkMlMjB2YWxpZGF0aW9uX2RhdGElM0R0Zl92YWxpZGF0aW9uX2RhdGFzZXQlMkMlMjBlcG9jaHMlM0QzKQ==",highlighted:'model.fit(tf_train_dataset, validation_data=tf_validation_dataset, epochs=<span class="hljs-number">3</span>)',wrap:!1}}),G=new Oe({props:{$$slots:{default:[Vt]},$$scope:{ctx:b}}}),P=new tt({props:{title:"การทำนายผลของโมเดล",local:"การทำนายผลของโมเดล",headingTag:"h3"}}),D=new et({props:{id:"nx10eh4CoOs"}}),O=new w({props:{code:"cHJlZHMlMjAlM0QlMjBtb2RlbC5wcmVkaWN0KHRmX3ZhbGlkYXRpb25fZGF0YXNldCklNUIlMjJsb2dpdHMlMjIlNUQ=",highlighted:'preds = model.predict(tf_validation_dataset)[<span class="hljs-string">&quot;logits&quot;</span>]',wrap:!1}}),te=new w({props:{code:"Y2xhc3NfcHJlZHMlMjAlM0QlMjBucC5hcmdtYXgocHJlZHMlMkMlMjBheGlzJTNEMSklMEFwcmludChwcmVkcy5zaGFwZSUyQyUyMGNsYXNzX3ByZWRzLnNoYXBlKQ==",highlighted:`class_preds = np.argmax(preds, axis=<span class="hljs-number">1</span>)
<span class="hljs-built_in">print</span>(preds.shape, class_preds.shape)`,wrap:!1}}),se=new w({props:{code:"KDQwOCUyQyUyMDIpJTIwKDQwOCUyQyk=",highlighted:'(<span class="hljs-number">408</span>, <span class="hljs-number">2</span>) (<span class="hljs-number">408</span>,)',wrap:!1}}),ae=new w({props:{code:"aW1wb3J0JTIwZXZhbHVhdGUlMEElMEFtZXRyaWMlMjAlM0QlMjBldmFsdWF0ZS5sb2FkKCUyMmdsdWUlMjIlMkMlMjAlMjJtcnBjJTIyKSUwQW1ldHJpYy5jb21wdXRlKHByZWRpY3Rpb25zJTNEY2xhc3NfcHJlZHMlMkMlMjByZWZlcmVuY2VzJTNEcmF3X2RhdGFzZXRzJTVCJTIydmFsaWRhdGlvbiUyMiU1RCU1QiUyMmxhYmVsJTIyJTVEKQ==",highlighted:`<span class="hljs-keyword">import</span> evaluate
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mrpc&quot;</span>)
metric.compute(predictions=class_preds, references=raw_datasets[<span class="hljs-string">&quot;validation&quot;</span>][<span class="hljs-string">&quot;label&quot;</span>])`,wrap:!1}}),ne=new w({props:{code:"JTdCJ2FjY3VyYWN5JyUzQSUyMDAuODU3ODQzMTM3MjU0OTAxOSUyQyUyMCdmMSclM0ElMjAwLjg5OTY1Mzk3OTIzODc1NDIlN0Q=",highlighted:'{<span class="hljs-string">&#x27;accuracy&#x27;</span>: <span class="hljs-number">0.8578431372549019</span>, <span class="hljs-string">&#x27;f1&#x27;</span>: <span class="hljs-number">0.8996539792387542</span>}',wrap:!1}}),re=new It({props:{source:"https://github.com/huggingface/course/blob/main/chapters/th/chapter3/3_tf.mdx"}}),{c(){p=u("meta"),h=a(),i=u("p"),$=a(),r(J.$$.fragment),me=a(),r(Z.$$.fragment),ce=a(),r(g.$$.fragment),Me=a(),_=u("p"),_.innerHTML=lt,fe=a(),C=u("p"),C.textContent=at,ue=a(),r(k.$$.fragment),de=a(),r(R.$$.fragment),ye=a(),W=u("p"),W.textContent=nt,he=a(),r(X.$$.fragment),$e=a(),I=u("p"),I.textContent=pt,be=a(),r(z.$$.fragment),we=a(),v=u("p"),v.innerHTML=it,Je=a(),r(F.$$.fragment),Te=a(),V=u("p"),V.innerHTML=rt,je=a(),Y=u("p"),Y.innerHTML=ot,Ue=a(),r(T.$$.fragment),Ge=a(),r(H.$$.fragment),Ze=a(),r(j.$$.fragment),ge=a(),r(Q.$$.fragment),_e=a(),r(B.$$.fragment),Ce=a(),x=u("p"),x.innerHTML=mt,ke=a(),N=u("p"),N.innerHTML=ct,Re=a(),r(E.$$.fragment),We=a(),r(U.$$.fragment),Xe=a(),S=u("p"),S.textContent=Mt,Ie=a(),r(q.$$.fragment),ze=a(),A=u("p"),A.textContent=ft,ve=a(),r(L.$$.fragment),Fe=a(),r(G.$$.fragment),Ve=a(),r(P.$$.fragment),Ye=a(),r(D.$$.fragment),He=a(),K=u("p"),K.innerHTML=ut,Qe=a(),r(O.$$.fragment),Be=a(),ee=u("p"),ee.innerHTML=dt,xe=a(),r(te.$$.fragment),Ne=a(),r(se.$$.fragment),Ee=a(),le=u("p"),le.innerHTML=yt,Se=a(),r(ae.$$.fragment),qe=a(),r(ne.$$.fragment),Ae=a(),pe=u("p"),pe.innerHTML=ht,Le=a(),ie=u("p"),ie.innerHTML=$t,Pe=a(),r(re.$$.fragment),De=a(),oe=u("p"),this.h()},l(e){const t=kt("svelte-u9bgzb",document.head);p=d(t,"META",{name:!0,content:!0}),t.forEach(s),h=n(e),i=d(e,"P",{}),Ut(i).forEach(s),$=n(e),o(J.$$.fragment,e),me=n(e),o(Z.$$.fragment,e),ce=n(e),o(g.$$.fragment,e),Me=n(e),_=d(e,"P",{"data-svelte-h":!0}),y(_)!=="svelte-zhbory"&&(_.innerHTML=lt),fe=n(e),C=d(e,"P",{"data-svelte-h":!0}),y(C)!=="svelte-qjrd18"&&(C.textContent=at),ue=n(e),o(k.$$.fragment,e),de=n(e),o(R.$$.fragment,e),ye=n(e),W=d(e,"P",{"data-svelte-h":!0}),y(W)!=="svelte-h0k3zp"&&(W.textContent=nt),he=n(e),o(X.$$.fragment,e),$e=n(e),I=d(e,"P",{"data-svelte-h":!0}),y(I)!=="svelte-2jzcg"&&(I.textContent=pt),be=n(e),o(z.$$.fragment,e),we=n(e),v=d(e,"P",{"data-svelte-h":!0}),y(v)!=="svelte-fz2qel"&&(v.innerHTML=it),Je=n(e),o(F.$$.fragment,e),Te=n(e),V=d(e,"P",{"data-svelte-h":!0}),y(V)!=="svelte-1a4jhzb"&&(V.innerHTML=rt),je=n(e),Y=d(e,"P",{"data-svelte-h":!0}),y(Y)!=="svelte-wrjpu3"&&(Y.innerHTML=ot),Ue=n(e),o(T.$$.fragment,e),Ge=n(e),o(H.$$.fragment,e),Ze=n(e),o(j.$$.fragment,e),ge=n(e),o(Q.$$.fragment,e),_e=n(e),o(B.$$.fragment,e),Ce=n(e),x=d(e,"P",{"data-svelte-h":!0}),y(x)!=="svelte-nb2avx"&&(x.innerHTML=mt),ke=n(e),N=d(e,"P",{"data-svelte-h":!0}),y(N)!=="svelte-ikwpbg"&&(N.innerHTML=ct),Re=n(e),o(E.$$.fragment,e),We=n(e),o(U.$$.fragment,e),Xe=n(e),S=d(e,"P",{"data-svelte-h":!0}),y(S)!=="svelte-1pmes1o"&&(S.textContent=Mt),Ie=n(e),o(q.$$.fragment,e),ze=n(e),A=d(e,"P",{"data-svelte-h":!0}),y(A)!=="svelte-1sd85vv"&&(A.textContent=ft),ve=n(e),o(L.$$.fragment,e),Fe=n(e),o(G.$$.fragment,e),Ve=n(e),o(P.$$.fragment,e),Ye=n(e),o(D.$$.fragment,e),He=n(e),K=d(e,"P",{"data-svelte-h":!0}),y(K)!=="svelte-1vm9fpa"&&(K.innerHTML=ut),Qe=n(e),o(O.$$.fragment,e),Be=n(e),ee=d(e,"P",{"data-svelte-h":!0}),y(ee)!=="svelte-wxsa79"&&(ee.innerHTML=dt),xe=n(e),o(te.$$.fragment,e),Ne=n(e),o(se.$$.fragment,e),Ee=n(e),le=d(e,"P",{"data-svelte-h":!0}),y(le)!=="svelte-1qjo1b4"&&(le.innerHTML=yt),Se=n(e),o(ae.$$.fragment,e),qe=n(e),o(ne.$$.fragment,e),Ae=n(e),pe=d(e,"P",{"data-svelte-h":!0}),y(pe)!=="svelte-1vg21xz"&&(pe.innerHTML=ht),Le=n(e),ie=d(e,"P",{"data-svelte-h":!0}),y(ie)!=="svelte-1fpdryv"&&(ie.innerHTML=$t),Pe=n(e),o(re.$$.fragment,e),De=n(e),oe=d(e,"P",{}),Ut(oe).forEach(s),this.h()},h(){Gt(p,"name","hf:doc:metadata"),Gt(p,"content",Ht)},m(e,t){Rt(document.head,p),l(e,h,t),l(e,i,t),l(e,$,t),m(J,e,t),l(e,me,t),m(Z,e,t),l(e,ce,t),m(g,e,t),l(e,Me,t),l(e,_,t),l(e,fe,t),l(e,C,t),l(e,ue,t),m(k,e,t),l(e,de,t),m(R,e,t),l(e,ye,t),l(e,W,t),l(e,he,t),m(X,e,t),l(e,$e,t),l(e,I,t),l(e,be,t),m(z,e,t),l(e,we,t),l(e,v,t),l(e,Je,t),m(F,e,t),l(e,Te,t),l(e,V,t),l(e,je,t),l(e,Y,t),l(e,Ue,t),m(T,e,t),l(e,Ge,t),m(H,e,t),l(e,Ze,t),m(j,e,t),l(e,ge,t),m(Q,e,t),l(e,_e,t),m(B,e,t),l(e,Ce,t),l(e,x,t),l(e,ke,t),l(e,N,t),l(e,Re,t),m(E,e,t),l(e,We,t),m(U,e,t),l(e,Xe,t),l(e,S,t),l(e,Ie,t),m(q,e,t),l(e,ze,t),l(e,A,t),l(e,ve,t),m(L,e,t),l(e,Fe,t),m(G,e,t),l(e,Ve,t),m(P,e,t),l(e,Ye,t),m(D,e,t),l(e,He,t),l(e,K,t),l(e,Qe,t),m(O,e,t),l(e,Be,t),l(e,ee,t),l(e,xe,t),m(te,e,t),l(e,Ne,t),m(se,e,t),l(e,Ee,t),l(e,le,t),l(e,Se,t),m(ae,e,t),l(e,qe,t),m(ne,e,t),l(e,Ae,t),l(e,pe,t),l(e,Le,t),l(e,ie,t),l(e,Pe,t),m(re,e,t),l(e,De,t),l(e,oe,t),Ke=!0},p(e,[t]){const bt={};t&1&&(bt.fw=e[0]),J.$set(bt);const wt={};t&2&&(wt.$$scope={dirty:t,ctx:e}),T.$set(wt);const Jt={};t&2&&(Jt.$$scope={dirty:t,ctx:e}),j.$set(Jt);const Tt={};t&2&&(Tt.$$scope={dirty:t,ctx:e}),U.$set(Tt);const jt={};t&2&&(jt.$$scope={dirty:t,ctx:e}),G.$set(jt)},i(e){Ke||(c(J.$$.fragment,e),c(Z.$$.fragment,e),c(g.$$.fragment,e),c(k.$$.fragment,e),c(R.$$.fragment,e),c(X.$$.fragment,e),c(z.$$.fragment,e),c(F.$$.fragment,e),c(T.$$.fragment,e),c(H.$$.fragment,e),c(j.$$.fragment,e),c(Q.$$.fragment,e),c(B.$$.fragment,e),c(E.$$.fragment,e),c(U.$$.fragment,e),c(q.$$.fragment,e),c(L.$$.fragment,e),c(G.$$.fragment,e),c(P.$$.fragment,e),c(D.$$.fragment,e),c(O.$$.fragment,e),c(te.$$.fragment,e),c(se.$$.fragment,e),c(ae.$$.fragment,e),c(ne.$$.fragment,e),c(re.$$.fragment,e),Ke=!0)},o(e){M(J.$$.fragment,e),M(Z.$$.fragment,e),M(g.$$.fragment,e),M(k.$$.fragment,e),M(R.$$.fragment,e),M(X.$$.fragment,e),M(z.$$.fragment,e),M(F.$$.fragment,e),M(T.$$.fragment,e),M(H.$$.fragment,e),M(j.$$.fragment,e),M(Q.$$.fragment,e),M(B.$$.fragment,e),M(E.$$.fragment,e),M(U.$$.fragment,e),M(q.$$.fragment,e),M(L.$$.fragment,e),M(G.$$.fragment,e),M(P.$$.fragment,e),M(D.$$.fragment,e),M(O.$$.fragment,e),M(te.$$.fragment,e),M(se.$$.fragment,e),M(ae.$$.fragment,e),M(ne.$$.fragment,e),M(re.$$.fragment,e),Ke=!1},d(e){e&&(s(h),s(i),s($),s(me),s(ce),s(Me),s(_),s(fe),s(C),s(ue),s(de),s(ye),s(W),s(he),s($e),s(I),s(be),s(we),s(v),s(Je),s(Te),s(V),s(je),s(Y),s(Ue),s(Ge),s(Ze),s(ge),s(_e),s(Ce),s(x),s(ke),s(N),s(Re),s(We),s(Xe),s(S),s(Ie),s(ze),s(A),s(ve),s(Fe),s(Ve),s(Ye),s(He),s(K),s(Qe),s(Be),s(ee),s(xe),s(Ne),s(Ee),s(le),s(Se),s(qe),s(Ae),s(pe),s(Le),s(ie),s(Pe),s(De),s(oe)),s(p),f(J,e),f(Z,e),f(g,e),f(k,e),f(R,e),f(X,e),f(z,e),f(F,e),f(T,e),f(H,e),f(j,e),f(Q,e),f(B,e),f(E,e),f(U,e),f(q,e),f(L,e),f(G,e),f(P,e),f(D,e),f(O,e),f(te,e),f(se,e),f(ae,e),f(ne,e),f(re,e)}}}const Ht='{"title":"การ Fine-tune โมเดลด้วย Keras","local":"การ-fine-tune-โมเดลดวย-keras","sections":[{"title":"การ Train โมเดล","local":"การ-train-โมเดล","sections":[],"depth":3},{"title":"การปรับปรุงประสิทธิภาพในการเทรน","local":"การปรบปรงประสทธภาพในการเทรน","sections":[],"depth":3},{"title":"การทำนายผลของโมเดล","local":"การทำนายผลของโมเดล","sections":[],"depth":3}],"depth":1}';function Qt(b,p,h){let i="pt";return gt(()=>{const $=new URLSearchParams(window.location.search);h(0,i=$.get("fw")||"pt")}),[i]}class Pt extends _t{constructor(p){super(),Ct(this,p,Qt,Yt,Zt,{})}}export{Pt as component};

Xet Storage Details

Size:
35.7 kB
·
Xet hash:
d34b95b838d59d7e74512ad2413e7a1e8419488df05cf5b2169a63bae5bc2961

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.