Buckets:

rtrm's picture
download
raw
7.59 kB
<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Pendahuluan&quot;,&quot;local&quot;:&quot;introduction&quot;,&quot;sections&quot;:[],&quot;depth&quot;:1}">
<link href="/docs/course/pr_1054/id/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/entry/start.4f92af03.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/scheduler.36a0863c.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/singletons.7dc7b9a4.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/index.733708bb.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/paths.cf097d06.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/entry/app.19cef1b6.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/index.156fee99.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/nodes/0.1203e4a0.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/each.e59479a4.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/nodes/44.31c9a92c.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/CourseFloatingBanner.16bb8bff.js">
<link rel="modulepreload" href="/docs/course/pr_1054/id/_app/immutable/chunks/getInferenceSnippets.472bc46d.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Pendahuluan&quot;,&quot;local&quot;:&quot;introduction&quot;,&quot;sections&quot;:[],&quot;depth&quot;:1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <h1 class="relative group"><a id="introduction" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#introduction"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Pendahuluan</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0"><a href="https://discuss.huggingface.co/t/chapter-6-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> </div> <p data-svelte-h="svelte-12d5dpr">Di <a href="/course/chapter3">Bab 3</a>, kita telah melihat cara menyetel ulang (fine-tune) sebuah model untuk suatu tugas tertentu. Saat kita melakukan itu, kita menggunakan tokenizer yang sama dengan yang digunakan saat model tersebut dilatih sebelumnya — tetapi apa yang harus kita lakukan ketika ingin melatih model dari awal? Dalam kasus seperti ini, menggunakan tokenizer yang telah dilatih sebelumnya pada korpus dari domain atau bahasa lain biasanya tidak optimal. Sebagai contoh, tokenizer yang dilatih pada korpus berbahasa Inggris akan berkinerja buruk pada korpus teks berbahasa Jepang karena penggunaan spasi dan tanda baca sangat berbeda di antara kedua bahasa tersebut.</p> <p data-svelte-h="svelte-w38wsl">Dalam bab ini, Anda akan belajar cara melatih tokenizer baru dari nol menggunakan korpus teks, sehingga tokenizer tersebut dapat digunakan untuk melakukan pretraining pada model bahasa. Semua ini akan dilakukan dengan bantuan pustaka <a href="https://github.com/huggingface/tokenizers" rel="nofollow">🤗 Tokenizers</a>, yang menyediakan tokenizer “cepat” dalam pustaka <a href="https://github.com/huggingface/transformers" rel="nofollow">🤗 Transformers</a>. Kita akan melihat lebih dekat fitur-fitur yang disediakan pustaka ini, dan menjelajahi bagaimana tokenizer cepat berbeda dari versi “lambat”.</p> <p data-svelte-h="svelte-1d937ym">Topik-topik yang akan kita bahas meliputi:</p> <ul data-svelte-h="svelte-1m5c4at"><li>Cara melatih tokenizer baru yang mirip dengan yang digunakan oleh checkpoint tertentu pada korpus teks baru</li> <li>Fitur-fitur khusus dari tokenizer cepat</li> <li>Perbedaan antara tiga algoritma tokenisasi sub-kata utama yang digunakan dalam NLP saat ini</li> <li>Cara membangun tokenizer dari nol menggunakan pustaka 🤗 Tokenizers dan melatihnya pada beberapa data</li></ul> <p data-svelte-h="svelte-16ofneg">Teknik-teknik yang diperkenalkan dalam bab ini akan mempersiapkan Anda untuk bagian di <a href="/course/chapter7/6">Bab 7</a> di mana kita akan melihat cara membuat model bahasa untuk kode sumber Python. Mari kita mulai dengan melihat apa arti sebenarnya dari “melatih” sebuah tokenizer.</p> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/id/chapter6/1.mdx" target="_blank"><span data-svelte-h="svelte-1kd6by1">&lt;</span> <span data-svelte-h="svelte-x0xyl0">&gt;</span> <span data-svelte-h="svelte-1dajgef"><span class="underline ml-1.5">Update</span> on GitHub</span></a> <p></p>
<script>
{
__sveltekit_ojy514 = {
assets: "/docs/course/pr_1054/id",
base: "/docs/course/pr_1054/id",
env: {}
};
const element = document.currentScript.parentElement;
const data = [null,null];
Promise.all([
import("/docs/course/pr_1054/id/_app/immutable/entry/start.4f92af03.js"),
import("/docs/course/pr_1054/id/_app/immutable/entry/app.19cef1b6.js")
]).then(([kit, app]) => {
kit.start(app, element, {
node_ids: [0, 44],
data,
form: null,
error: null
});
});
}
</script>

Xet Storage Details

Size:
7.59 kB
·
Xet hash:
228552eb0395c63bdda60a02e804e50f3db643159d95147325b86efbca8c851c

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.