Buckets:
| import{s as Lt,o as Ft,n as Pl}from"../chunks/scheduler.37c15a92.js";import{S as qt,i as Pt,g as m,s as e,r,A as Ot,h as g,f as l,c,j as Gt,u as J,x as T,k as Fl,y as Kt,a as t,v as o,t as h,b as Wl,d as M,w as j,p as Hl}from"../chunks/index.2bf4358c.js";import{T as ql}from"../chunks/Tip.363c041f.js";import{Y as Xl}from"../chunks/Youtube.1e50a667.js";import{C as d}from"../chunks/CodeBlock.4e987730.js";import{D as Yt}from"../chunks/DocNotebookDropdown.efc1fb7c.js";import{F as sa}from"../chunks/FrameworkSwitchCourse.8d4d4ab6.js";import{H as yn,E as na}from"../chunks/getInferenceSnippets.ebf8be91.js";function la(x){let a,y;return a=new Yt({props:{classNames:"absolute z-10 right-0 top-0",options:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/vi/chapter6/section3_tf.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/vi/chapter6/section3_tf.ipynb"}]}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function ta(x){let a,y;return a=new Yt({props:{classNames:"absolute z-10 right-0 top-0",options:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/vi/chapter6/section3_pt.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/vi/chapter6/section3_pt.ipynb"}]}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function aa(x){let a,y="⚠️ Khi tokenize một câu, bạn không phải lúc nào cũng thấy sự khác biệt về tốc độ giữa các phiên bản chậm và nhanh của cùng một trình tokenize. Trên thực tế, phiên bản nhanh có thể chậm hơn! Chỉ khi tokenize nhiều văn bản song song cùng một lúc, bạn mới có thể thấy rõ sự khác biệt.";return{c(){a=m("p"),a.textContent=y},l(p){a=g(p,"P",{"data-svelte-h":!0}),T(a)!=="svelte-1yabr1f"&&(a.textContent=y)},m(p,u){t(p,a,u)},p:Pl,d(p){p&&l(a)}}}function ea(x){let a,y="Khái niệm về một từ rất là phức tạp. Ví dụ: “I’ll” (từ rút gọn của “I will”) có được tính là một hay hai từ? Nó thực sự phụ thuộc vào trình tokenize và hoạt động tiền tokenize mà nó áp dụng. Một số tokenizer chỉ tách ra trên khoảng trắng, vì vậy họ sẽ coi đây là một từ. Những người khác sử dụng dấu câu ở đầu khoảng trắng, vì vậy sẽ coi nó là hai từ.",p,u,f="✏️ <strong>Thử nghiệm thôi!</strong> Tạo tokenizer từ các checkpoints <code>bert-base-cased</code> và<code>roberta-base</code> và tokenize ”81s” với chúng. Bạn quan sát thấy gì? ID từ là gì?";return{c(){a=m("p"),a.textContent=y,p=e(),u=m("p"),u.innerHTML=f},l(b){a=g(b,"P",{"data-svelte-h":!0}),T(a)!=="svelte-1tep4o2"&&(a.textContent=y),p=c(b),u=g(b,"P",{"data-svelte-h":!0}),T(u)!=="svelte-1fucid4"&&(u.innerHTML=f)},m(b,I){t(b,a,I),t(b,p,I),t(b,u,I)},p:Pl,d(b){b&&(l(a),l(p),l(u))}}}function ca(x){let a,y="✏️ <strong>Thử nghiệm thôi</strong> Tạo văn bản mẫu của riêng bạn và xem liệu bạn có thể hiểu những token nào được liên kết với ID từ, cũng như cách trích xuất ký tự kéo dài cho một từ. Để có điểm thưởng, hãy thử sử dụng hai câu làm đầu vào và xem liệu ID câu có phù hợp với bạn không.";return{c(){a=m("p"),a.innerHTML=y},l(p){a=g(p,"P",{"data-svelte-h":!0}),T(a)!=="svelte-11g6xvg"&&(a.innerHTML=y)},m(p,u){t(p,a,u)},p:Pl,d(p){p&&l(a)}}}function pa(x){let a,y;return a=new Xl({props:{id:"PrX4CjrVnNc"}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function ia(x){let a,y;return a=new Xl({props:{id:"0E7ltQB7fM8"}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function ha(x){let a,y='Đầu tiên chúng ta cần tokenize đầu vào của chúng ta và truyền chúng vào mô hình. Đây chính xác là những gì ta đã làm ở <a href="/course/chapter2">Chương 2</a>; ta khởi tạo tokenizer và mô hình sử dụng lớp <code>TFAutoXxx</code> và sau đó dùng chúng vào các mẫu của mình:',p,u,f,b,I="Vì ta dùng <code>TFAutoModelForTokenClassification</code> ở đây, ta sẽ nhận được tập hợp các logits cho từng token của chuỗi đầu vào:",A,U,C,k,$;return u=new d({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMkMlMjBURkF1dG9Nb2RlbEZvclRva2VuQ2xhc3NpZmljYXRpb24lMEElMEFtb2RlbF9jaGVja3BvaW50JTIwJTNEJTIwJTIyZGJtZHolMkZiZXJ0LWxhcmdlLWNhc2VkLWZpbmV0dW5lZC1jb25sbDAzLWVuZ2xpc2glMjIlMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZChtb2RlbF9jaGVja3BvaW50KSUwQW1vZGVsJTIwJTNEJTIwVEZBdXRvTW9kZWxGb3JUb2tlbkNsYXNzaWZpY2F0aW9uLmZyb21fcHJldHJhaW5lZChtb2RlbF9jaGVja3BvaW50KSUwQSUwQWV4YW1wbGUlMjAlM0QlMjAlMjJNeSUyMG5hbWUlMjBpcyUyMFN5bHZhaW4lMjBhbmQlMjBJJTIwd29yayUyMGF0JTIwSHVnZ2luZyUyMEZhY2UlMjBpbiUyMEJyb29rbHluLiUyMiUwQWlucHV0cyUyMCUzRCUyMHRva2VuaXplcihleGFtcGxlJTJDJTIwcmV0dXJuX3RlbnNvcnMlM0QlMjJ0ZiUyMiklMEFvdXRwdXRzJTIwJTNEJTIwbW9kZWwoKippbnB1dHMp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer, TFAutoModelForTokenClassification | |
| model_checkpoint = <span class="hljs-string">"dbmdz/bert-large-cased-finetuned-conll03-english"</span> | |
| tokenizer = AutoTokenizer.from_pretrained(model_checkpoint) | |
| model = TFAutoModelForTokenClassification.from_pretrained(model_checkpoint) | |
| example = <span class="hljs-string">"My name is Sylvain and I work at Hugging Face in Brooklyn."</span> | |
| inputs = tokenizer(example, return_tensors=<span class="hljs-string">"tf"</span>) | |
| outputs = model(**inputs)`,wrap:!1}}),U=new d({props:{code:"cHJpbnQoaW5wdXRzJTVCJTIyaW5wdXRfaWRzJTIyJTVELnNoYXBlKSUwQXByaW50KG91dHB1dHMubG9naXRzLnNoYXBlKQ==",highlighted:`<span class="hljs-built_in">print</span>(inputs[<span class="hljs-string">"input_ids"</span>].shape) | |
| <span class="hljs-built_in">print</span>(outputs.logits.shape)`,wrap:!1}}),k=new d({props:{code:"KDElMkMlMjAxOSklMEEoMSUyQyUyMDE5JTJDJTIwOSk=",highlighted:`(<span class="hljs-number">1</span>, <span class="hljs-number">19</span>) | |
| (<span class="hljs-number">1</span>, <span class="hljs-number">19</span>, <span class="hljs-number">9</span>)`,wrap:!1}}),{c(){a=m("p"),a.innerHTML=y,p=e(),r(u.$$.fragment),f=e(),b=m("p"),b.innerHTML=I,A=e(),r(U.$$.fragment),C=e(),r(k.$$.fragment)},l(i){a=g(i,"P",{"data-svelte-h":!0}),T(a)!=="svelte-pqs8nf"&&(a.innerHTML=y),p=c(i),J(u.$$.fragment,i),f=c(i),b=g(i,"P",{"data-svelte-h":!0}),T(b)!=="svelte-1dezfnb"&&(b.innerHTML=I),A=c(i),J(U.$$.fragment,i),C=c(i),J(k.$$.fragment,i)},m(i,w){t(i,a,w),t(i,p,w),o(u,i,w),t(i,f,w),t(i,b,w),t(i,A,w),o(U,i,w),t(i,C,w),o(k,i,w),$=!0},i(i){$||(M(u.$$.fragment,i),M(U.$$.fragment,i),M(k.$$.fragment,i),$=!0)},o(i){h(u.$$.fragment,i),h(U.$$.fragment,i),h(k.$$.fragment,i),$=!1},d(i){i&&(l(a),l(p),l(f),l(b),l(A),l(C)),j(u,i),j(U,i),j(k,i)}}}function Ma(x){let a,y='Đầu tiên chúng ta cần tokenize đầu vào của chúng ta và truyền chúng vào mô hình. Đây chính xác là những gì ta đã làm ở <a href="/course/chapter2">Chương 2</a>; ta khởi tạo tokenizer và mô hình sử dụng lớp <code>AutoXxx</code> và sau đó dùng chúng vào các mẫu của mình:',p,u,f,b,I="Vì chúng ta sử dụng <code>AutoModelForTokenClassification</code> ở đây,ta sẽ nhận được tập hợp các logits cho từng token của chuỗi đầu vào:",A,U,C,k,$;return u=new d({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMkMlMjBBdXRvTW9kZWxGb3JUb2tlbkNsYXNzaWZpY2F0aW9uJTBBJTBBbW9kZWxfY2hlY2twb2ludCUyMCUzRCUyMCUyMmRibWR6JTJGYmVydC1sYXJnZS1jYXNlZC1maW5ldHVuZWQtY29ubGwwMy1lbmdsaXNoJTIyJTBBdG9rZW5pemVyJTIwJTNEJTIwQXV0b1Rva2VuaXplci5mcm9tX3ByZXRyYWluZWQobW9kZWxfY2hlY2twb2ludCklMEFtb2RlbCUyMCUzRCUyMEF1dG9Nb2RlbEZvclRva2VuQ2xhc3NpZmljYXRpb24uZnJvbV9wcmV0cmFpbmVkKG1vZGVsX2NoZWNrcG9pbnQpJTBBJTBBZXhhbXBsZSUyMCUzRCUyMCUyMk15JTIwbmFtZSUyMGlzJTIwU3lsdmFpbiUyMGFuZCUyMEklMjB3b3JrJTIwYXQlMjBIdWdnaW5nJTIwRmFjZSUyMGluJTIwQnJvb2tseW4uJTIyJTBBaW5wdXRzJTIwJTNEJTIwdG9rZW5pemVyKGV4YW1wbGUlMkMlMjByZXR1cm5fdGVuc29ycyUzRCUyMnB0JTIyKSUwQW91dHB1dHMlMjAlM0QlMjBtb2RlbCgqKmlucHV0cyk=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer, AutoModelForTokenClassification | |
| model_checkpoint = <span class="hljs-string">"dbmdz/bert-large-cased-finetuned-conll03-english"</span> | |
| tokenizer = AutoTokenizer.from_pretrained(model_checkpoint) | |
| model = AutoModelForTokenClassification.from_pretrained(model_checkpoint) | |
| example = <span class="hljs-string">"My name is Sylvain and I work at Hugging Face in Brooklyn."</span> | |
| inputs = tokenizer(example, return_tensors=<span class="hljs-string">"pt"</span>) | |
| outputs = model(**inputs)`,wrap:!1}}),U=new d({props:{code:"cHJpbnQoaW5wdXRzJTVCJTIyaW5wdXRfaWRzJTIyJTVELnNoYXBlKSUwQXByaW50KG91dHB1dHMubG9naXRzLnNoYXBlKQ==",highlighted:`<span class="hljs-built_in">print</span>(inputs[<span class="hljs-string">"input_ids"</span>].shape) | |
| <span class="hljs-built_in">print</span>(outputs.logits.shape)`,wrap:!1}}),k=new d({props:{code:"dG9yY2guU2l6ZSglNUIxJTJDJTIwMTklNUQpJTBBdG9yY2guU2l6ZSglNUIxJTJDJTIwMTklMkMlMjA5JTVEKQ==",highlighted:`torch.Size([<span class="hljs-number">1</span>, <span class="hljs-number">19</span>]) | |
| torch.Size([<span class="hljs-number">1</span>, <span class="hljs-number">19</span>, <span class="hljs-number">9</span>])`,wrap:!1}}),{c(){a=m("p"),a.innerHTML=y,p=e(),r(u.$$.fragment),f=e(),b=m("p"),b.innerHTML=I,A=e(),r(U.$$.fragment),C=e(),r(k.$$.fragment)},l(i){a=g(i,"P",{"data-svelte-h":!0}),T(a)!=="svelte-zg3jz9"&&(a.innerHTML=y),p=c(i),J(u.$$.fragment,i),f=c(i),b=g(i,"P",{"data-svelte-h":!0}),T(b)!=="svelte-tjledl"&&(b.innerHTML=I),A=c(i),J(U.$$.fragment,i),C=c(i),J(k.$$.fragment,i)},m(i,w){t(i,a,w),t(i,p,w),o(u,i,w),t(i,f,w),t(i,b,w),t(i,A,w),o(U,i,w),t(i,C,w),o(k,i,w),$=!0},i(i){$||(M(u.$$.fragment,i),M(U.$$.fragment,i),M(k.$$.fragment,i),$=!0)},o(i){h(u.$$.fragment,i),h(U.$$.fragment,i),h(k.$$.fragment,i),$=!1},d(i){i&&(l(a),l(p),l(f),l(b),l(A),l(C)),j(u,i),j(U,i),j(k,i)}}}function ra(x){let a,y;return a=new d({props:{code:"aW1wb3J0JTIwdGVuc29yZmxvdyUyMGFzJTIwdGYlMEElMEFwcm9iYWJpbGl0aWVzJTIwJTNEJTIwdGYubWF0aC5zb2Z0bWF4KG91dHB1dHMubG9naXRzJTJDJTIwYXhpcyUzRC0xKSU1QjAlNUQlMEFwcm9iYWJpbGl0aWVzJTIwJTNEJTIwcHJvYmFiaWxpdGllcy5udW1weSgpLnRvbGlzdCgpJTBBcHJlZGljdGlvbnMlMjAlM0QlMjB0Zi5tYXRoLmFyZ21heChvdXRwdXRzLmxvZ2l0cyUyQyUyMGF4aXMlM0QtMSklNUIwJTVEJTBBcHJlZGljdGlvbnMlMjAlM0QlMjBwcmVkaWN0aW9ucy5udW1weSgpLnRvbGlzdCgpJTBBcHJpbnQocHJlZGljdGlvbnMp",highlighted:`<span class="hljs-keyword">import</span> tensorflow <span class="hljs-keyword">as</span> tf | |
| probabilities = tf.math.softmax(outputs.logits, axis=-<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>] | |
| probabilities = probabilities.numpy().tolist() | |
| predictions = tf.math.argmax(outputs.logits, axis=-<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>] | |
| predictions = predictions.numpy().tolist() | |
| <span class="hljs-built_in">print</span>(predictions)`,wrap:!1}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function Ja(x){let a,y;return a=new d({props:{code:"aW1wb3J0JTIwdG9yY2glMEElMEFwcm9iYWJpbGl0aWVzJTIwJTNEJTIwdG9yY2gubm4uZnVuY3Rpb25hbC5zb2Z0bWF4KG91dHB1dHMubG9naXRzJTJDJTIwZGltJTNELTEpJTVCMCU1RC50b2xpc3QoKSUwQXByZWRpY3Rpb25zJTIwJTNEJTIwb3V0cHV0cy5sb2dpdHMuYXJnbWF4KGRpbSUzRC0xKSU1QjAlNUQudG9saXN0KCklMEFwcmludChwcmVkaWN0aW9ucyk=",highlighted:`<span class="hljs-keyword">import</span> torch | |
| probabilities = torch.nn.functional.softmax(outputs.logits, dim=-<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>].tolist() | |
| predictions = outputs.logits.argmax(dim=-<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>].tolist() | |
| <span class="hljs-built_in">print</span>(predictions)`,wrap:!1}}),{c(){r(a.$$.fragment)},l(p){J(a.$$.fragment,p)},m(p,u){o(a,p,u),y=!0},i(p){y||(M(a.$$.fragment,p),y=!0)},o(p){h(a.$$.fragment,p),y=!1},d(p){j(a,p)}}}function oa(x){let a,y,p,u,f,b,I,A,U,C,k,$,i='Trong phần này, chúng ta sẽ xem xét kỹ hơn các khả năng của tokenizer trong 🤗 Transformers. Cho đến nay, chúng ta chỉ sử dụng chúng để tokenize đầu vào hoặc giải mã ID trở lại thành văn bản, nhưng các trình tokenize - đặc biệt là những trình tokenize được hỗ trợ bởi thư viện 🤗 Tokenizers - có thể làm được nhiều hơn thế. Để minh họa các tính năng bổ sung này, chúng ta sẽ khám phá cách tái tạo kết quả của <code>token-classification</code> (mà chúng ta gọi là <code>ner</code>) và <code>question-answering</code> chúng ta gặp phải lần đầu tiên trong <a href="/course/chapter1">Chương 1</a>.',w,V,gn,W,Ol='Trong phần thảo luận kế tiếp, chúng ta sẽ phân biệt giữa các loại tokenizer “chậm” và “nhanh”. Phiên bản chậm là những phiên bản được viết bằng Python bên trong thư viện 🤗 Transformers, trong khi phiên bản nhanh là những phiên bản được cung cấp bởi 🤗 Tokenizers, được viết bằng Rust. Nếu bạn nhớ bảng từ <a href="/course/chapter5/3">Chương 5</a> báo cáo khoảng thời gian tokenize nhanh và chậm cần để tokenize Drug Review Dataset, bạn nên biết lý do tại sao chúng tôi gọi chúng là nhanh và chậm :',un,H,Kl='<thead><tr><th align="center">Tokenizer nhanh</th> <th align="center">Tokenizer chậm</th> <th align="center"></th></tr></thead> <tbody><tr><td align="center"><code>batched=True</code></td> <td align="center">10.8s</td> <td align="center">4min41s</td></tr> <tr><td align="center"><code>batched=False</code></td> <td align="center">59.2s</td> <td align="center">5min3s</td></tr></tbody>',Tn,Z,dn,X,bn,D,Un,G,st="Đầu ra của tokenizer không phải là một từ điển Python đơn giản; những gì chúng ta nhận được thực sự là một đối tượng <code>BatchEncoding</code> đặc biệt. Đó là một lớp con của từ điển (đó là lý do tại sao trước đây chúng ta có thể lập chỉ mục vào kết quả đó mà không gặp bất kỳ vấn đề gì), nhưng với các phương thức bổ sung hầu hết được sử dụng bởi các trình tokenize nhanh.",xn,Y,nt="Bên cạnh khả năng song song hóa của chúng, chức năng chính của các trình tokenize nhanh là chúng luôn theo dõi khoảng văn bản ban đầu mà ta tokenize - một tính năng được gọi là <em>offset mapping</em> hay <em>ánh xạ bù trừ</em>. Điều này lần lượt mở khóa các tính năng như ánh xạ từng từ với token mà nó tạo ra hoặc ánh xạ từng ký tự của văn bản gốc với token bên trong và ngược lại.",wn,L,lt="Cùng xem một mẫu:",kn,F,fn,q,tt="Như đã đề cập trước đây, chúng ta nhận được một đối tượng <code>BatchEncoding</code> trong đầu ra của trình tokenize:",Cn,P,In,O,at="Vì lớp <code>AutoTokenizer</code> chọn một trình tokenizer nhanh theo mặc định, chúng ta có thể sử dụng các phương thức bổ sung mà đối tượng <code>BatchEncoding</code> này cung cấp. Chúng ta có hai cách để kiểm tra xem trình tokenize là nhanh hay chậm. Chúng ta có thể kiểm tra bằng thuộc tính <code>is_fast</code> của <code>tokenizer</code>:",$n,K,An,ss,Qn,ns,et="hoặc kiểm tra cùng thuộc tính đó của <code>encoding</code>:",vn,ls,Bn,ts,Nn,as,ct="Hãy xem những gì một tokenizer nhanh cho phép chúng ta làm. Đầu tiên, chúng tôi có thể truy cập token mà không cần phải chuyển đổi ID trở lại token:",En,es,zn,cs,Zn,ps,pt="Trong trường hợp này, token ở chỉ mục 5 là <code>##yl</code>, là một phần của từ “Sylvain” trong câu gốc. Chúng ta cũng có thể sử dụng phương thức <code>word_ids()</code> để lấy chỉ mục của từ mà mỗi token đến từ:",Sn,is,Rn,hs,_n,Ms,it="Chúng ta có thể thấy rằng các token đặc biệt của trình tokenize như <code>[CLS]</code> và <code>[SEP]</code> được ánh xạ thành <code>None</code>, và sau đó mỗi token được ánh xạ tới từ mà nó bắt nguồn. Điều này đặc biệt hữu ích để xác định xem một token nằm ở đầu một từ hay nếu hai token có trong cùng thuộc một từ. Chúng ta có thể dựa vào tiền tố <code>##</code> cho điều đó, nhưng nó chỉ hoạt động đối với các tokenize kiểu BERT; phương pháp này hoạt động với bất kỳ loại tokenizer nào miễn nó là phiên bản nhanh. Trong chương tiếp theo, chúng ta sẽ xem cách chúng ta có thể sử dụng khả năng này để áp dụng nhãn chúng ta có cho mỗi từ đúng cách với các token trong các tác vụ như nhận dạng thực thể được đặt tên (NER) và gán nhãn từ loại (POS). Chúng ta cũng có thể sử dụng nó để che giấu tất cả các token đến từ cùng một từ trong mô hình ngôn ngữ được che (một kỹ thuật được gọi là <em>whole word masking</em>).",Vn,S,Wn,rs,ht="Tương tự, có một phương thức <code>question_ids()</code> mà chúng ta có thể sử dụng để ánh xạ token đến câu mà nó bắt nguồn (mặc dù trong trường hợp này, <code>token_type_ids</code> được trả về bởi tokenizer có thể cung cấp cho chúng ta cùng một thông tin).",Hn,Js,Mt="Cuối cùng, chúng ta có thể ánh xạ bất kỳ từ hoặc token nào với các ký tự trong văn bản gốc và ngược lại, thông qua các phương thức <code>word_to_chars()</code> hoặc <code>token_to_chars()</code> và <code>char_to_word()</code> hoặc <code>char_to_token()</code>. Ví dụ: phương thức <code>word_ids()</code> cho chúng ta biết rằng <code>##yl</code> là một phần của từ ở chỉ mục 3, nhưng từ đó nằm trong câu nào? Chúng ta có thể tìm hiểu như thế này:",Xn,os,Dn,js,Gn,ys,rt="Như đã đề cập trước đó, tất cả điều này thực tế được hỗ trợ bởi là trình tokenizer nhanh kết hợp khoảng văn bản mà mỗi token đến từ danh sách <em>offset</em> hay <em>offset</em>. Để minh họa việc sử dụng chúng, tiếp theo, chúng tôi sẽ hướng dẫn bạn cách sao chép các kết quả của <code>token-classification</code> theo cách thủ công.",Yn,R,Ln,ms,Fn,gs,Jt='Trong <a href="/course/chapter1">Chương 1</a>, chúng ta lần đầu được thử áp dụng NER - tác vụ xác định những phần nào của văn bản tương ứng với các thực thể như người, địa điểm hoặc tổ chức - với <code>pipeline()</code> của 🤗 Transformers. Sau đó, trong <a href="/course/chapter2">Chương 2</a>, chúng ta đã thấy cách một pipeline nhóm ba giai đoạn cần thiết lại với nhau để nhận các dự đoán từ một văn bản thô: tokenize, chuyển các đầu vào qua mô hình và hậu xử lý. Hai bước đầu tiên trong quy trình <code>token-classification</code> cũng giống như trong bất kỳ quy trình nào khác, nhưng quá trình hậu xử lý phức tạp hơn một chút - hãy cùng xem cách thực hiện!',qn,Q,v,Jn,us,Pn,Ts,ot='Trước tiên, hãy lấy một pipeline phân loại token chúng ta có thể nhận được một số kết quả để so sánh theo cách thủ công. Mô hình được sử dụng theo mặc định là <a href="https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english" rel="nofollow"><code>dbmdz/bert-large-cased-finetuned-conll03-english</code></a>; nó thực hiện NER trên các câu:',On,ds,Kn,bs,sl,Us,jt="Mô hình đã xác định đúng mỗi token do “Sylvain” tạo ra là một người, mỗi token được tạo bởi “Hugging Face” là một tổ chức và token “Brooklyn” là một địa điểm. Chúng ta cũng có thể yêu cầu pipeline nhóm các token tương ứng với cùng một thực thể lại với nhau:",nl,xs,ll,ws,tl,ks,yt="<code>aggregation_strategy</code> được chọn sẽ thay đổi điểm được tính cho mỗi thực thể được nhóm lại, Với <code>"simple"</code>, điểm chỉ là giá trị trung bình của điểm của mỗi token trong thực thể đã cho: ví dụ: điểm của “Sylvain” là trung bình điểm mà chúng ta đã thấy trong ví dụ trước cho các token <code>S</code> , <code>##yl</code>,<code>## va</code> và <code>##in</code>. Các chiến lược có sẵn khác là:",al,fs,mt="<li><code>"first"</code>, trong đó điểm của mỗi thực thể là điểm của token đầu tiên của thực thể đó (vì vậy đối với “Sylvain”, nó sẽ là 0.993828, điểm của token <code>S</code>)</li> <li><code>"max"</code>, trong đó điểm của mỗi thực thể là điểm tối đa của các token trong thực thế đó (vì vậy với “Hugging Face” sẽ là 0.98879766, điểm của “Face”)</li> <li><code>"average"</code>, trong đó điểm của mỗi thực thể là điểm trung bình của các từ tạo nên thực thể đó (ví dụ với “Sylvain” thì phương pháp này sẽ không có sự khác biệt so với phương pháp <code>"simple"</code>, nhưng với “Hugging Face”, điểm trả về sẽ là 0.9819, điểm trung bình của “Hugging”, 0.975, và “Face”, 0.98879)</li>",el,Cs,gt="Giờ chúng ta hãy xem làm thế nào để có được những kết quả này mà không cần sử dụng hàm<code>pipeline()</code>!",cl,Is,pl,B,N,on,$s,ut="Chúng ta có một lô với 1 chuỗi gồm 19 token và mô hình có 9 nhãn khác nhau, vì vậy đầu ra của mô hình có hình dạng 1 x 19 x 9. Giống như đối với pipeline phân loại văn bản, chúng ta sử dụng hàm softmax để chuyển đổi các logits đó theo xác suất, và chúng ta lấy argmax để nhận dự đoán (lưu ý rằng ta có thể lấy argmax trên logits vì softmax không thay đổi thứ tự):",il,E,z,jn,As,hl,Qs,Tt="Thuộc tính <code>model.config.id2label</code> chứa ánh xạ các chỉ mục tới các nhãn mà chúng ta có thể sử dụng để hiểu các dự đoán:",Ml,vs,rl,Bs,Jl,Ns,dt="Như chúng ta đã thấy trước đó, có 9 nhãn: <code>O</code> là nhãn cho các token không nằm trong bất kỳ thực thể được đặt tên nào (nó là viết tắt của “outside” hay “bên ngoài”) và sau đó chúng ta có hai nhãn cho mỗi loại thực thể (linh tinh, người , tổ chức và vị trí). Nhãn <code>B-XXX</code> cho biết token nằm ở đầu thực thể <code>XXX</code> và nhãn <code>I-XXX</code> cho biết token nằm bên trong thực thể <code>XXX</code>. Ví dụ: trong mẫu hiện tại, chúng ta kì vọng mô hình phân loại token <code>S</code> là <code>B-PER</code> (bắt đầu của một thực thể người) và các token <code>##yl</code>,<code>##va</code> và <code>##in</code> là <code>I-PER</code> (bên trong một thực thể người).",ol,Es,bt="Bạn có thể nghĩ rằng mô hình đã sai trong trường hợp này vì nó đã gắn nhãn <code>I-PER</code> cho cả bốn token này, nhưng điều đó không hoàn toàn đúng. Thực tế có hai định dạng cho các nhãn <code>B-</code> và <code>I-</code> đó là: <em>IOB1</em> và <em>IOB2</em>. Định dạng IOB2 (màu hồng bên dưới), là định dạng chúng ta đã giới thiệu trong khi ở định dạng IOB1 (màu xanh lam), các nhãn bắt đầu bằng <code>B-</code> chỉ được sử dụng để phân tách hai thực thể liền kề cùng loại. Mô hình chúng tôi đang sử dụng đã được tinh chỉnh trên tập dữ liệu bằng cách sử dụng định dạng đó, đó là lý do tại sao nó gán nhãn <code>I-PER</code> cho mã thông báo <code>S</code>.",jl,_,Ut='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter6/IOB_versions.svg" alt="IOB1 vs IOB2 format"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter6/IOB_versions-dark.svg" alt="IOB1 vs IOB2 format"/>',yl,zs,xt="Với phép ánh xạ này, chúng ta đã sẵn sàng đề tái tạo lại (gần như hoàn toàn) kết quả của pipeline đầu — ta chỉ cần lấy điểm và nhãn của mỗi token mà không được phân vào <code>O</code>:",ml,Zs,gl,Ss,ul,Rs,wt="Điều này rất giống với những gì ta đã có trước đây, ngoại trừ một ngoại lệ: pipeline cũng cung cấp thông tin về điểm <code>start</code> hay <code>bắt đầu</code> và <code>end</code> hay <code>kết thúc</code> của mỗi thực thể trong câu gốc. Đây là lúc ánh xạ bù trừ của chúng ta sẽ phát huy tác dụng. Để có được offset, chúng ta chỉ cần đặt <code>return_offsets_mapping=True</code> khi chúng ta áp dụng tokenizer cho các đầu vào của mình:",Tl,_s,dl,Vs,bl,Ws,kt="Mỗi tuple là khoảng văn bản tương ứng với mỗi token, trong đó <code>(0, 0)</code> được dành riêng cho các token đặc biệt. Trước đây, chúng ta đã thấy rằng token ở chỉ mục 5 là <code>##yl</code>, có <code>(12, 14)</code> là các phần bù ở đây. Nếu chúng ta lấy phần tương ứng trong mẫu của mình:",Ul,Hs,xl,Xs,ft="ta nhận được khoảng văn bản thích hợp mà không có <code>##</code>:",wl,Ds,kl,Gs,Ct="Sử dụng điều này, bây giờ chúng ta có thể hoàn thành các kết quả trước đó:",fl,Ys,Cl,Ls,Il,Fs,It="Đây giống như những gì chúng ta có được từ pipeline đầu tiên!",$l,qs,Al,Ps,$t="Sử dụng các offset để xác định điểm bắt đầu và kết thúc cho mỗi thực thể là rất tiện dụng, nhưng thông tin đó không hoàn toàn cần thiết. Tuy nhiên, khi chúng ta muốn nhóm các thực thể lại với nhau, việc offset sẽ giúp chúng ta tiết kiệm rất nhiều đoạn mã lộn xộn. Ví dụ: nếu chúng ta muốn nhóm các token <code>Hu</code>, <code>##gging</code> và <code>Face</code> lại với nhau, chúng ta có thể đưa ra các quy tắc đặc biệt nói rằng hai token đầu tiên phải được đính kèm trong khi xóa dấu <code>##</code> và <code>Face</code> nên được thêm một khoảng trắng vì nó không bắt đầu bằng <code>##</code> - nhưng điều đó sẽ chỉ hoạt động đối với loại tokenizer cụ thể này. Chúng ta sẽ phải viết một bộ quy tắc khác cho SentencePiece hoặc Byte-Pair-Encoding (sẽ được thảo luận ở phần sau của chương này).",Ql,Os,At="Với offset, tất cả mã tùy chỉnh đó sẽ biến mất: chúng ta chỉ có thể lấy khoảng trong văn bản gốc bắt đầu bằng token đầu tiên và kết thúc bằng token cuối cùng. Vì vậy, trong trường hợp các mã thông báo <code>Hu</code>, <code>##gging</code> và <code>Face</code>, chúng ta nên bắt đầu ở ký tự 33 (đầu của <code>Hu</code>) và kết thúc trước ký tự 45 (cuối của <code>Face</code>) :",vl,Ks,Bl,sn,Nl,nn,Qt="Để viết đoạn mã hậu xử lý các dự đoán trong khi nhóm các thực thể, ta sẽ nhóm các thực thể liên tiếp và có nhãn <code>I-XXX</code> với nhau trừ khi nó là từ đầu tiên, được gán nhãn <code>B-XXX</code> hoặc <code>I-XXX</code> (để ta có thể dừng nhóm một thực thể khi nhận được <code>O</code>, một kiểu thực thể mới, hoặc một <code>B-XXX</code> cho ta biết thực thể có kiểu giống với điểm bắt đầu):",El,ln,zl,tn,vt="Và chúng ta nhận được kết quả tương tự như với pipeline thứ hai của mình!",Zl,an,Sl,en,Bt="Một ví dụ khác về tác vụ mà những offset này cực kỳ hữu ích là hỏi đáp. Đào sâu vào pipeline này, chúng ta sẽ thực hiện trong phần tiếp theo, cũng sẽ cho phép chúng ta xem xét một tính năng cuối cùng của các tokenizers trong thư viện 🤗 Transformers: xử lý các token tràn khi chúng ta cắt bớt một đầu vào đến một độ dài nhất định.",Rl,cn,_l,mn,Vl;f=new sa({props:{fw:x[0]}}),I=new yn({props:{title:"Sức mạnh đặc biệt của tokenizer nhanh",local:"sức-mạnh-đặc-biệt-của-tokenizer-nhanh",headingTag:"h1"}});const Nt=[ta,la],pn=[];function Et(s,n){return s[0]==="pt"?0:1}U=Et(x),C=pn[U]=Nt[U](x),V=new Xl({props:{id:"g8quOxoqhHQ"}}),Z=new ql({props:{warning:!0,$$slots:{default:[aa]},$$scope:{ctx:x}}}),X=new yn({props:{title:"Mã hoá theo lô",local:"mã-hoá-theo-lô",headingTag:"h2"}}),D=new Xl({props:{id:"3umI3tm27Vw"}}),F=new d({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMEElMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJiZXJ0LWJhc2UtY2FzZWQlMjIpJTBBZXhhbXBsZSUyMCUzRCUyMCUyMk15JTIwbmFtZSUyMGlzJTIwU3lsdmFpbiUyMGFuZCUyMEklMjB3b3JrJTIwYXQlMjBIdWdnaW5nJTIwRmFjZSUyMGluJTIwQnJvb2tseW4uJTIyJTBBZW5jb2RpbmclMjAlM0QlMjB0b2tlbml6ZXIoZXhhbXBsZSklMEFwcmludCh0eXBlKGVuY29kaW5nKSk=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">"bert-base-cased"</span>) | |
| example = <span class="hljs-string">"My name is Sylvain and I work at Hugging Face in Brooklyn."</span> | |
| encoding = tokenizer(example) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-built_in">type</span>(encoding))`,wrap:!1}}),P=new d({props:{code:"JTNDY2xhc3MlMjAndHJhbnNmb3JtZXJzLnRva2VuaXphdGlvbl91dGlsc19iYXNlLkJhdGNoRW5jb2RpbmcnJTNF",highlighted:'<<span class="hljs-keyword">class</span> <span class="hljs-string">'transformers.tokenization_utils_base.BatchEncoding'</span>>',wrap:!1}}),K=new d({props:{code:"dG9rZW5pemVyLmlzX2Zhc3Q=",highlighted:"tokenizer.is_fast",wrap:!1}}),ss=new d({props:{code:"VHJ1ZQ==",highlighted:'<span class="hljs-literal">True</span>',wrap:!1}}),ls=new d({props:{code:"ZW5jb2RpbmcuaXNfZmFzdA==",highlighted:"encoding.is_fast",wrap:!1}}),ts=new d({props:{code:"VHJ1ZQ==",highlighted:'<span class="hljs-literal">True</span>',wrap:!1}}),es=new d({props:{code:"ZW5jb2RpbmcudG9rZW5zKCk=",highlighted:"encoding.tokens()",wrap:!1}}),cs=new d({props:{code:"JTVCJyU1QkNMUyU1RCclMkMlMjAnTXknJTJDJTIwJ25hbWUnJTJDJTIwJ2lzJyUyQyUyMCdTJyUyQyUyMCclMjMlMjN5bCclMkMlMjAnJTIzJTIzdmEnJTJDJTIwJyUyMyUyM2luJyUyQyUyMCdhbmQnJTJDJTIwJ0knJTJDJTIwJ3dvcmsnJTJDJTIwJ2F0JyUyQyUyMCdIdSclMkMlMjAnJTIzJTIzZ2dpbmcnJTJDJTIwJ0ZhY2UnJTJDJTIwJ2luJyUyQyUwQSUyMCdCcm9va2x5biclMkMlMjAnLiclMkMlMjAnJTVCU0VQJTVEJyU1RA==",highlighted:`[<span class="hljs-string">'[CLS]'</span>, <span class="hljs-string">'My'</span>, <span class="hljs-string">'name'</span>, <span class="hljs-string">'is'</span>, <span class="hljs-string">'S'</span>, <span class="hljs-string">'##yl'</span>, <span class="hljs-string">'##va'</span>, <span class="hljs-string">'##in'</span>, <span class="hljs-string">'and'</span>, <span class="hljs-string">'I'</span>, <span class="hljs-string">'work'</span>, <span class="hljs-string">'at'</span>, <span class="hljs-string">'Hu'</span>, <span class="hljs-string">'##gging'</span>, <span class="hljs-string">'Face'</span>, <span class="hljs-string">'in'</span>, | |
| <span class="hljs-string">'Brooklyn'</span>, <span class="hljs-string">'.'</span>, <span class="hljs-string">'[SEP]'</span>]`,wrap:!1}}),is=new d({props:{code:"ZW5jb2Rpbmcud29yZF9pZHMoKQ==",highlighted:"encoding.word_ids()",wrap:!1}}),hs=new d({props:{code:"JTVCTm9uZSUyQyUyMDAlMkMlMjAxJTJDJTIwMiUyQyUyMDMlMkMlMjAzJTJDJTIwMyUyQyUyMDMlMkMlMjA0JTJDJTIwNSUyQyUyMDYlMkMlMjA3JTJDJTIwOCUyQyUyMDglMkMlMjA5JTJDJTIwMTAlMkMlMjAxMSUyQyUyMDEyJTJDJTIwTm9uZSU1RA==",highlighted:'[<span class="hljs-literal">None</span>, <span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">2</span>, <span class="hljs-number">3</span>, <span class="hljs-number">3</span>, <span class="hljs-number">3</span>, <span class="hljs-number">3</span>, <span class="hljs-number">4</span>, <span class="hljs-number">5</span>, <span class="hljs-number">6</span>, <span class="hljs-number">7</span>, <span class="hljs-number">8</span>, <span class="hljs-number">8</span>, <span class="hljs-number">9</span>, <span class="hljs-number">10</span>, <span class="hljs-number">11</span>, <span class="hljs-number">12</span>, <span class="hljs-literal">None</span>]',wrap:!1}}),S=new ql({props:{$$slots:{default:[ea]},$$scope:{ctx:x}}}),os=new d({props:{code:"c3RhcnQlMkMlMjBlbmQlMjAlM0QlMjBlbmNvZGluZy53b3JkX3RvX2NoYXJzKDMpJTBBZXhhbXBsZSU1QnN0YXJ0JTNBZW5kJTVE",highlighted:`start, end = encoding.word_to_chars(<span class="hljs-number">3</span>) | |
| example[start:end]`,wrap:!1}}),js=new d({props:{code:"U3lsdmFpbg==",highlighted:"Sylvain",wrap:!1}}),R=new ql({props:{$$slots:{default:[ca]},$$scope:{ctx:x}}}),ms=new yn({props:{title:"Bên trong pipeline token-classification",local:"bên-trong-pipeline-token-classification",headingTag:"h2"}});const zt=[ia,pa],hn=[];function Zt(s,n){return s[0]==="pt"?0:1}Q=Zt(x),v=hn[Q]=zt[Q](x),us=new yn({props:{title:"Nhận kết quả cơ sở với baseline",local:"nhận-kết-quả-cơ-sở-với-baseline",headingTag:"h3"}}),ds=new d({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMHBpcGVsaW5lJTBBJTBBdG9rZW5fY2xhc3NpZmllciUyMCUzRCUyMHBpcGVsaW5lKCUyMnRva2VuLWNsYXNzaWZpY2F0aW9uJTIyKSUwQXRva2VuX2NsYXNzaWZpZXIoJTIyTXklMjBuYW1lJTIwaXMlMjBTeWx2YWluJTIwYW5kJTIwSSUyMHdvcmslMjBhdCUyMEh1Z2dpbmclMjBGYWNlJTIwaW4lMjBCcm9va2x5bi4lMjIp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline | |
| token_classifier = pipeline(<span class="hljs-string">"token-classification"</span>) | |
| token_classifier(<span class="hljs-string">"My name is Sylvain and I work at Hugging Face in Brooklyn."</span>)`,wrap:!1}}),bs=new d({props:{code:"JTVCJTdCJ2VudGl0eSclM0ElMjAnSS1QRVInJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTk5MzgyOCUyQyUyMCdpbmRleCclM0ElMjA0JTJDJTIwJ3dvcmQnJTNBJTIwJ1MnJTJDJTIwJ3N0YXJ0JyUzQSUyMDExJTJDJTIwJ2VuZCclM0ElMjAxMiU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5ODE1NDc2JTJDJTIwJ2luZGV4JyUzQSUyMDUlMkMlMjAnd29yZCclM0ElMjAnJTIzJTIzeWwnJTJDJTIwJ3N0YXJ0JyUzQSUyMDEyJTJDJTIwJ2VuZCclM0ElMjAxNCU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5NTkwNzI1JTJDJTIwJ2luZGV4JyUzQSUyMDYlMkMlMjAnd29yZCclM0ElMjAnJTIzJTIzdmEnJTJDJTIwJ3N0YXJ0JyUzQSUyMDE0JTJDJTIwJ2VuZCclM0ElMjAxNiU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5OTIzMjclMkMlMjAnaW5kZXgnJTNBJTIwNyUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjNpbiclMkMlMjAnc3RhcnQnJTNBJTIwMTYlMkMlMjAnZW5kJyUzQSUyMDE4JTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1PUkcnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTczODkzMzQlMkMlMjAnaW5kZXgnJTNBJTIwMTIlMkMlMjAnd29yZCclM0ElMjAnSHUnJTJDJTIwJ3N0YXJ0JyUzQSUyMDMzJTJDJTIwJ2VuZCclM0ElMjAzNSU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktT1JHJyUyQyUyMCdzY29yZSclM0ElMjAwLjk3NjExNSUyQyUyMCdpbmRleCclM0ElMjAxMyUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjNnZ2luZyclMkMlMjAnc3RhcnQnJTNBJTIwMzUlMkMlMjAnZW5kJyUzQSUyMDQwJTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1PUkcnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTg4Nzk3NjYlMkMlMjAnaW5kZXgnJTNBJTIwMTQlMkMlMjAnd29yZCclM0ElMjAnRmFjZSclMkMlMjAnc3RhcnQnJTNBJTIwNDElMkMlMjAnZW5kJyUzQSUyMDQ1JTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1MT0MnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTkzMjEwNTUlMkMlMjAnaW5kZXgnJTNBJTIwMTYlMkMlMjAnd29yZCclM0ElMjAnQnJvb2tseW4nJTJDJTIwJ3N0YXJ0JyUzQSUyMDQ5JTJDJTIwJ2VuZCclM0ElMjA1NyU3RCU1RA==",highlighted:`[{<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9993828</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">4</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'S'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">11</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">12</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99815476</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">5</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##yl'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">12</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">14</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99590725</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">6</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##va'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">14</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">16</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9992327</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">7</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##in'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">16</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">18</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.97389334</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">12</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Hu'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">33</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">35</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.976115</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">13</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##gging'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">35</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">40</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.98879766</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">14</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Face'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">41</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">45</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-LOC'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99321055</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">16</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Brooklyn'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">49</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">57</span>}]`,wrap:!1}}),xs=new d({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMHBpcGVsaW5lJTBBJTBBdG9rZW5fY2xhc3NpZmllciUyMCUzRCUyMHBpcGVsaW5lKCUyMnRva2VuLWNsYXNzaWZpY2F0aW9uJTIyJTJDJTIwYWdncmVnYXRpb25fc3RyYXRlZ3klM0QlMjJzaW1wbGUlMjIpJTBBdG9rZW5fY2xhc3NpZmllciglMjJNeSUyMG5hbWUlMjBpcyUyMFN5bHZhaW4lMjBhbmQlMjBJJTIwd29yayUyMGF0JTIwSHVnZ2luZyUyMEZhY2UlMjBpbiUyMEJyb29rbHluLiUyMik=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline | |
| token_classifier = pipeline(<span class="hljs-string">"token-classification"</span>, aggregation_strategy=<span class="hljs-string">"simple"</span>) | |
| token_classifier(<span class="hljs-string">"My name is Sylvain and I work at Hugging Face in Brooklyn."</span>)`,wrap:!1}}),ws=new d({props:{code:"JTVCJTdCJ2VudGl0eV9ncm91cCclM0ElMjAnUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5ODE2OTQlMkMlMjAnd29yZCclM0ElMjAnU3lsdmFpbiclMkMlMjAnc3RhcnQnJTNBJTIwMTElMkMlMjAnZW5kJyUzQSUyMDE4JTdEJTJDJTBBJTIwJTdCJ2VudGl0eV9ncm91cCclM0ElMjAnT1JHJyUyQyUyMCdzY29yZSclM0ElMjAwLjk3OTYwMjA0JTJDJTIwJ3dvcmQnJTNBJTIwJ0h1Z2dpbmclMjBGYWNlJyUyQyUyMCdzdGFydCclM0ElMjAzMyUyQyUyMCdlbmQnJTNBJTIwNDUlN0QlMkMlMEElMjAlN0InZW50aXR5X2dyb3VwJyUzQSUyMCdMT0MnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTkzMjEwNTUlMkMlMjAnd29yZCclM0ElMjAnQnJvb2tseW4nJTJDJTIwJ3N0YXJ0JyUzQSUyMDQ5JTJDJTIwJ2VuZCclM0ElMjA1NyU3RCU1RA==",highlighted:`[{<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9981694</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Sylvain'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">11</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">18</span>}, | |
| {<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.97960204</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Hugging Face'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">33</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">45</span>}, | |
| {<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'LOC'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99321055</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Brooklyn'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">49</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">57</span>}]`,wrap:!1}}),Is=new yn({props:{title:"Từ đầu vào tới dự đoán",local:"từ-đầu-vào-tới-dự-đoán",headingTag:"h3"}});const St=[Ma,ha],Mn=[];function Rt(s,n){return s[0]==="pt"?0:1}B=Rt(x),N=Mn[B]=St[B](x);const _t=[Ja,ra],rn=[];function Vt(s,n){return s[0]==="pt"?0:1}return E=Vt(x),z=rn[E]=_t[E](x),As=new d({props:{code:"JTVCMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDQlMkMlMjA0JTJDJTIwNCUyQyUyMDQlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwNiUyQyUyMDYlMkMlMjA2JTJDJTIwMCUyQyUyMDglMkMlMjAwJTJDJTIwMCU1RA==",highlighted:'[<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">4</span>, <span class="hljs-number">4</span>, <span class="hljs-number">4</span>, <span class="hljs-number">4</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">6</span>, <span class="hljs-number">6</span>, <span class="hljs-number">6</span>, <span class="hljs-number">0</span>, <span class="hljs-number">8</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>]',wrap:!1}}),vs=new d({props:{code:"bW9kZWwuY29uZmlnLmlkMmxhYmVs",highlighted:"model.config.id2label",wrap:!1}}),Bs=new d({props:{code:"JTdCMCUzQSUyMCdPJyUyQyUwQSUyMDElM0ElMjAnQi1NSVNDJyUyQyUwQSUyMDIlM0ElMjAnSS1NSVNDJyUyQyUwQSUyMDMlM0ElMjAnQi1QRVInJTJDJTBBJTIwNCUzQSUyMCdJLVBFUiclMkMlMEElMjA1JTNBJTIwJ0ItT1JHJyUyQyUwQSUyMDYlM0ElMjAnSS1PUkcnJTJDJTBBJTIwNyUzQSUyMCdCLUxPQyclMkMlMEElMjA4JTNBJTIwJ0ktTE9DJyU3RA==",highlighted:`{<span class="hljs-number">0</span>: <span class="hljs-string">'O'</span>, | |
| <span class="hljs-number">1</span>: <span class="hljs-string">'B-MISC'</span>, | |
| <span class="hljs-number">2</span>: <span class="hljs-string">'I-MISC'</span>, | |
| <span class="hljs-number">3</span>: <span class="hljs-string">'B-PER'</span>, | |
| <span class="hljs-number">4</span>: <span class="hljs-string">'I-PER'</span>, | |
| <span class="hljs-number">5</span>: <span class="hljs-string">'B-ORG'</span>, | |
| <span class="hljs-number">6</span>: <span class="hljs-string">'I-ORG'</span>, | |
| <span class="hljs-number">7</span>: <span class="hljs-string">'B-LOC'</span>, | |
| <span class="hljs-number">8</span>: <span class="hljs-string">'I-LOC'</span>}`,wrap:!1}}),Zs=new d({props:{code:"cmVzdWx0cyUyMCUzRCUyMCU1QiU1RCUwQXRva2VucyUyMCUzRCUyMGlucHV0cy50b2tlbnMoKSUwQSUwQWZvciUyMGlkeCUyQyUyMHByZWQlMjBpbiUyMGVudW1lcmF0ZShwcmVkaWN0aW9ucyklM0ElMEElMjAlMjAlMjAlMjBsYWJlbCUyMCUzRCUyMG1vZGVsLmNvbmZpZy5pZDJsYWJlbCU1QnByZWQlNUQlMEElMjAlMjAlMjAlMjBpZiUyMGxhYmVsJTIwISUzRCUyMCUyMk8lMjIlM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXN1bHRzLmFwcGVuZCglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMjJlbnRpdHklMjIlM0ElMjBsYWJlbCUyQyUyMCUyMnNjb3JlJTIyJTNBJTIwcHJvYmFiaWxpdGllcyU1QmlkeCU1RCU1QnByZWQlNUQlMkMlMjAlMjJ3b3JkJTIyJTNBJTIwdG9rZW5zJTVCaWR4JTVEJTdEJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwKSUwQSUwQXByaW50KHJlc3VsdHMp",highlighted:`results = [] | |
| tokens = inputs.tokens() | |
| <span class="hljs-keyword">for</span> idx, pred <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(predictions): | |
| label = model.config.id2label[pred] | |
| <span class="hljs-keyword">if</span> label != <span class="hljs-string">"O"</span>: | |
| results.append( | |
| {<span class="hljs-string">"entity"</span>: label, <span class="hljs-string">"score"</span>: probabilities[idx][pred], <span class="hljs-string">"word"</span>: tokens[idx]} | |
| ) | |
| <span class="hljs-built_in">print</span>(results)`,wrap:!1}}),Ss=new d({props:{code:"JTVCJTdCJ2VudGl0eSclM0ElMjAnSS1QRVInJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTk5MzgyOCUyQyUyMCdpbmRleCclM0ElMjA0JTJDJTIwJ3dvcmQnJTNBJTIwJ1MnJTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1QRVInJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTk4MTU0NzYlMkMlMjAnaW5kZXgnJTNBJTIwNSUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjN5bCclN0QlMkMlMEElMjAlN0InZW50aXR5JyUzQSUyMCdJLVBFUiclMkMlMjAnc2NvcmUnJTNBJTIwMC45OTU5MDcyNSUyQyUyMCdpbmRleCclM0ElMjA2JTJDJTIwJ3dvcmQnJTNBJTIwJyUyMyUyM3ZhJyU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5OTIzMjclMkMlMjAnaW5kZXgnJTNBJTIwNyUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjNpbiclN0QlMkMlMEElMjAlN0InZW50aXR5JyUzQSUyMCdJLU9SRyclMkMlMjAnc2NvcmUnJTNBJTIwMC45NzM4OTMzNCUyQyUyMCdpbmRleCclM0ElMjAxMiUyQyUyMCd3b3JkJyUzQSUyMCdIdSclN0QlMkMlMEElMjAlN0InZW50aXR5JyUzQSUyMCdJLU9SRyclMkMlMjAnc2NvcmUnJTNBJTIwMC45NzYxMTUlMkMlMjAnaW5kZXgnJTNBJTIwMTMlMkMlMjAnd29yZCclM0ElMjAnJTIzJTIzZ2dpbmcnJTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1PUkcnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTg4Nzk3NjYlMkMlMjAnaW5kZXgnJTNBJTIwMTQlMkMlMjAnd29yZCclM0ElMjAnRmFjZSclN0QlMkMlMEElMjAlN0InZW50aXR5JyUzQSUyMCdJLUxPQyclMkMlMjAnc2NvcmUnJTNBJTIwMC45OTMyMTA1NSUyQyUyMCdpbmRleCclM0ElMjAxNiUyQyUyMCd3b3JkJyUzQSUyMCdCcm9va2x5biclN0QlNUQ=",highlighted:`[{<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9993828</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">4</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'S'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99815476</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">5</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##yl'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99590725</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">6</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##va'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9992327</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">7</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##in'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.97389334</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">12</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Hu'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.976115</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">13</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##gging'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.98879766</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">14</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Face'</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-LOC'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99321055</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">16</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Brooklyn'</span>}]`,wrap:!1}}),_s=new d({props:{code:"aW5wdXRzX3dpdGhfb2Zmc2V0cyUyMCUzRCUyMHRva2VuaXplcihleGFtcGxlJTJDJTIwcmV0dXJuX29mZnNldHNfbWFwcGluZyUzRFRydWUpJTBBaW5wdXRzX3dpdGhfb2Zmc2V0cyU1QiUyMm9mZnNldF9tYXBwaW5nJTIyJTVE",highlighted:`inputs_with_offsets = tokenizer(example, return_offsets_mapping=<span class="hljs-literal">True</span>) | |
| inputs_with_offsets[<span class="hljs-string">"offset_mapping"</span>]`,wrap:!1}}),Vs=new d({props:{code:"JTVCKDAlMkMlMjAwKSUyQyUyMCgwJTJDJTIwMiklMkMlMjAoMyUyQyUyMDcpJTJDJTIwKDglMkMlMjAxMCklMkMlMjAoMTElMkMlMjAxMiklMkMlMjAoMTIlMkMlMjAxNCklMkMlMjAoMTQlMkMlMjAxNiklMkMlMjAoMTYlMkMlMjAxOCklMkMlMjAoMTklMkMlMjAyMiklMkMlMjAoMjMlMkMlMjAyNCklMkMlMjAoMjUlMkMlMjAyOSklMkMlMjAoMzAlMkMlMjAzMiklMkMlMEElMjAoMzMlMkMlMjAzNSklMkMlMjAoMzUlMkMlMjA0MCklMkMlMjAoNDElMkMlMjA0NSklMkMlMjAoNDYlMkMlMjA0OCklMkMlMjAoNDklMkMlMjA1NyklMkMlMjAoNTclMkMlMjA1OCklMkMlMjAoMCUyQyUyMDApJTVE",highlighted:`[(<span class="hljs-number">0</span>, <span class="hljs-number">0</span>), (<span class="hljs-number">0</span>, <span class="hljs-number">2</span>), (<span class="hljs-number">3</span>, <span class="hljs-number">7</span>), (<span class="hljs-number">8</span>, <span class="hljs-number">10</span>), (<span class="hljs-number">11</span>, <span class="hljs-number">12</span>), (<span class="hljs-number">12</span>, <span class="hljs-number">14</span>), (<span class="hljs-number">14</span>, <span class="hljs-number">16</span>), (<span class="hljs-number">16</span>, <span class="hljs-number">18</span>), (<span class="hljs-number">19</span>, <span class="hljs-number">22</span>), (<span class="hljs-number">23</span>, <span class="hljs-number">24</span>), (<span class="hljs-number">25</span>, <span class="hljs-number">29</span>), (<span class="hljs-number">30</span>, <span class="hljs-number">32</span>), | |
| (<span class="hljs-number">33</span>, <span class="hljs-number">35</span>), (<span class="hljs-number">35</span>, <span class="hljs-number">40</span>), (<span class="hljs-number">41</span>, <span class="hljs-number">45</span>), (<span class="hljs-number">46</span>, <span class="hljs-number">48</span>), (<span class="hljs-number">49</span>, <span class="hljs-number">57</span>), (<span class="hljs-number">57</span>, <span class="hljs-number">58</span>), (<span class="hljs-number">0</span>, <span class="hljs-number">0</span>)]`,wrap:!1}}),Hs=new d({props:{code:"ZXhhbXBsZSU1QjEyJTNBMTQlNUQ=",highlighted:'example[<span class="hljs-number">12</span>:<span class="hljs-number">14</span>]',wrap:!1}}),Ds=new d({props:{code:"eWw=",highlighted:"yl",wrap:!1}}),Ys=new d({props:{code:"cmVzdWx0cyUyMCUzRCUyMCU1QiU1RCUwQWlucHV0c193aXRoX29mZnNldHMlMjAlM0QlMjB0b2tlbml6ZXIoZXhhbXBsZSUyQyUyMHJldHVybl9vZmZzZXRzX21hcHBpbmclM0RUcnVlKSUwQXRva2VucyUyMCUzRCUyMGlucHV0c193aXRoX29mZnNldHMudG9rZW5zKCklMEFvZmZzZXRzJTIwJTNEJTIwaW5wdXRzX3dpdGhfb2Zmc2V0cyU1QiUyMm9mZnNldF9tYXBwaW5nJTIyJTVEJTBBJTBBZm9yJTIwaWR4JTJDJTIwcHJlZCUyMGluJTIwZW51bWVyYXRlKHByZWRpY3Rpb25zKSUzQSUwQSUyMCUyMCUyMCUyMGxhYmVsJTIwJTNEJTIwbW9kZWwuY29uZmlnLmlkMmxhYmVsJTVCcHJlZCU1RCUwQSUyMCUyMCUyMCUyMGlmJTIwbGFiZWwlMjAhJTNEJTIwJTIyTyUyMiUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHN0YXJ0JTJDJTIwZW5kJTIwJTNEJTIwb2Zmc2V0cyU1QmlkeCU1RCUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJlc3VsdHMuYXBwZW5kKCUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMmVudGl0eSUyMiUzQSUyMGxhYmVsJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyc2NvcmUlMjIlM0ElMjBwcm9iYWJpbGl0aWVzJTVCaWR4JTVEJTVCcHJlZCU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMndvcmQlMjIlM0ElMjB0b2tlbnMlNUJpZHglNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJzdGFydCUyMiUzQSUyMHN0YXJ0JTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyZW5kJTIyJTNBJTIwZW5kJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwKSUwQSUwQXByaW50KHJlc3VsdHMp",highlighted:`results = [] | |
| inputs_with_offsets = tokenizer(example, return_offsets_mapping=<span class="hljs-literal">True</span>) | |
| tokens = inputs_with_offsets.tokens() | |
| offsets = inputs_with_offsets[<span class="hljs-string">"offset_mapping"</span>] | |
| <span class="hljs-keyword">for</span> idx, pred <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(predictions): | |
| label = model.config.id2label[pred] | |
| <span class="hljs-keyword">if</span> label != <span class="hljs-string">"O"</span>: | |
| start, end = offsets[idx] | |
| results.append( | |
| { | |
| <span class="hljs-string">"entity"</span>: label, | |
| <span class="hljs-string">"score"</span>: probabilities[idx][pred], | |
| <span class="hljs-string">"word"</span>: tokens[idx], | |
| <span class="hljs-string">"start"</span>: start, | |
| <span class="hljs-string">"end"</span>: end, | |
| } | |
| ) | |
| <span class="hljs-built_in">print</span>(results)`,wrap:!1}}),Ls=new d({props:{code:"JTVCJTdCJ2VudGl0eSclM0ElMjAnSS1QRVInJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTk5MzgyOCUyQyUyMCdpbmRleCclM0ElMjA0JTJDJTIwJ3dvcmQnJTNBJTIwJ1MnJTJDJTIwJ3N0YXJ0JyUzQSUyMDExJTJDJTIwJ2VuZCclM0ElMjAxMiU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5ODE1NDc2JTJDJTIwJ2luZGV4JyUzQSUyMDUlMkMlMjAnd29yZCclM0ElMjAnJTIzJTIzeWwnJTJDJTIwJ3N0YXJ0JyUzQSUyMDEyJTJDJTIwJ2VuZCclM0ElMjAxNCU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5NTkwNzI1JTJDJTIwJ2luZGV4JyUzQSUyMDYlMkMlMjAnd29yZCclM0ElMjAnJTIzJTIzdmEnJTJDJTIwJ3N0YXJ0JyUzQSUyMDE0JTJDJTIwJ2VuZCclM0ElMjAxNiU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5OTIzMjclMkMlMjAnaW5kZXgnJTNBJTIwNyUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjNpbiclMkMlMjAnc3RhcnQnJTNBJTIwMTYlMkMlMjAnZW5kJyUzQSUyMDE4JTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1PUkcnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTczODkzMzQlMkMlMjAnaW5kZXgnJTNBJTIwMTIlMkMlMjAnd29yZCclM0ElMjAnSHUnJTJDJTIwJ3N0YXJ0JyUzQSUyMDMzJTJDJTIwJ2VuZCclM0ElMjAzNSU3RCUyQyUwQSUyMCU3QidlbnRpdHknJTNBJTIwJ0ktT1JHJyUyQyUyMCdzY29yZSclM0ElMjAwLjk3NjExNSUyQyUyMCdpbmRleCclM0ElMjAxMyUyQyUyMCd3b3JkJyUzQSUyMCclMjMlMjNnZ2luZyclMkMlMjAnc3RhcnQnJTNBJTIwMzUlMkMlMjAnZW5kJyUzQSUyMDQwJTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1PUkcnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTg4Nzk3NjYlMkMlMjAnaW5kZXgnJTNBJTIwMTQlMkMlMjAnd29yZCclM0ElMjAnRmFjZSclMkMlMjAnc3RhcnQnJTNBJTIwNDElMkMlMjAnZW5kJyUzQSUyMDQ1JTdEJTJDJTBBJTIwJTdCJ2VudGl0eSclM0ElMjAnSS1MT0MnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTkzMjEwNTUlMkMlMjAnaW5kZXgnJTNBJTIwMTYlMkMlMjAnd29yZCclM0ElMjAnQnJvb2tseW4nJTJDJTIwJ3N0YXJ0JyUzQSUyMDQ5JTJDJTIwJ2VuZCclM0ElMjA1NyU3RCU1RA==",highlighted:`[{<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9993828</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">4</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'S'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">11</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">12</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99815476</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">5</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##yl'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">12</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">14</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99590725</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">6</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##va'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">14</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">16</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9992327</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">7</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##in'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">16</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">18</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.97389334</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">12</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Hu'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">33</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">35</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.976115</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">13</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'##gging'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">35</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">40</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.98879766</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">14</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Face'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">41</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">45</span>}, | |
| {<span class="hljs-string">'entity'</span>: <span class="hljs-string">'I-LOC'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99321055</span>, <span class="hljs-string">'index'</span>: <span class="hljs-number">16</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Brooklyn'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">49</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">57</span>}]`,wrap:!1}}),qs=new yn({props:{title:"Nhóm các thực thể",local:"nhóm-các-thực-thể",headingTag:"h3"}}),Ks=new d({props:{code:"ZXhhbXBsZSU1QjMzJTNBNDUlNUQ=",highlighted:'example[<span class="hljs-number">33</span>:<span class="hljs-number">45</span>]',wrap:!1}}),sn=new d({props:{code:"SHVnZ2luZyUyMEZhY2U=",highlighted:"Hugging Face",wrap:!1}}),ln=new d({props:{code:"aW1wb3J0JTIwbnVtcHklMjBhcyUyMG5wJTBBJTBBcmVzdWx0cyUyMCUzRCUyMCU1QiU1RCUwQWlucHV0c193aXRoX29mZnNldHMlMjAlM0QlMjB0b2tlbml6ZXIoZXhhbXBsZSUyQyUyMHJldHVybl9vZmZzZXRzX21hcHBpbmclM0RUcnVlKSUwQXRva2VucyUyMCUzRCUyMGlucHV0c193aXRoX29mZnNldHMudG9rZW5zKCklMEFvZmZzZXRzJTIwJTNEJTIwaW5wdXRzX3dpdGhfb2Zmc2V0cyU1QiUyMm9mZnNldF9tYXBwaW5nJTIyJTVEJTBBJTBBaWR4JTIwJTNEJTIwMCUwQXdoaWxlJTIwaWR4JTIwJTNDJTIwbGVuKHByZWRpY3Rpb25zKSUzQSUwQSUyMCUyMCUyMCUyMHByZWQlMjAlM0QlMjBwcmVkaWN0aW9ucyU1QmlkeCU1RCUwQSUyMCUyMCUyMCUyMGxhYmVsJTIwJTNEJTIwbW9kZWwuY29uZmlnLmlkMmxhYmVsJTVCcHJlZCU1RCUwQSUyMCUyMCUyMCUyMGlmJTIwbGFiZWwlMjAhJTNEJTIwJTIyTyUyMiUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMyUyMFhvJUMzJUExJTIwQi0lMjBobyVFMSVCQSVCN2MlMjBJLSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGxhYmVsJTIwJTNEJTIwbGFiZWwlNUIyJTNBJTVEJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwc3RhcnQlMkMlMjBfJTIwJTNEJTIwb2Zmc2V0cyU1QmlkeCU1RCUwQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMyUyMEwlRTElQkElQTV5JTIwdCVFMSVCQSVBNXQlMjBjJUUxJUJBJUEzJTIwYyVDMyVBMWMlMjB0b2tlbnMlMjBjJUMzJUIzJTIwbmglQzMlQTNuJTIwSS0lMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBhbGxfc2NvcmVzJTIwJTNEJTIwJTVCJTVEJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwd2hpbGUlMjAoJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwaWR4JTIwJTNDJTIwbGVuKHByZWRpY3Rpb25zKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGFuZCUyMG1vZGVsLmNvbmZpZy5pZDJsYWJlbCU1QnByZWRpY3Rpb25zJTVCaWR4JTVEJTVEJTIwJTNEJTNEJTIwZiUyMkktJTdCbGFiZWwlN0QlMjIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjApJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwYWxsX3Njb3Jlcy5hcHBlbmQocHJvYmFiaWxpdGllcyU1QmlkeCU1RCU1QnByZWQlNUQpJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwXyUyQyUyMGVuZCUyMCUzRCUyMG9mZnNldHMlNUJpZHglNUQlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBpZHglMjAlMkIlM0QlMjAxJTBBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIzJTIwJUM0JTkwaSVFMSVCQiU4M20lMjBsJUMzJUEwJTIwZ2klQzMlQTElMjB0ciVFMSVCQiU4QiUyMHRydW5nJTIwYiVDMyVBQ25oJTIwYyVFMSVCQiVBN2ElMjB0JUUxJUJBJUE1dCUyMGMlRTElQkElQTMlMjAlQzQlOTFpJUUxJUJCJTgzbSUyMGMlRTElQkIlQTdhJTIwYyVDMyVBMWMlMjB0b2tlbiUyMHRyb25nJTIwdGglRTElQkIlQjFjJTIwdGglRTElQkIlODMlMjAlQzQlOTElQzYlQjAlRTElQkIlQTNjJTIwbmglQzMlQjNtJTIwJUM0JTkxJUMzJUIzJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwc2NvcmUlMjAlM0QlMjBucC5tZWFuKGFsbF9zY29yZXMpLml0ZW0oKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHdvcmQlMjAlM0QlMjBleGFtcGxlJTVCc3RhcnQlM0FlbmQlNUQlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXN1bHRzLmFwcGVuZCglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJlbnRpdHlfZ3JvdXAlMjIlM0ElMjBsYWJlbCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnNjb3JlJTIyJTNBJTIwc2NvcmUlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJ3b3JkJTIyJTNBJTIwd29yZCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnN0YXJ0JTIyJTNBJTIwc3RhcnQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJlbmQlMjIlM0ElMjBlbmQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0QlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjApJTBBJTIwJTIwJTIwJTIwaWR4JTIwJTJCJTNEJTIwMSUwQSUwQXByaW50KHJlc3VsdHMp",highlighted:`<span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np | |
| results = [] | |
| inputs_with_offsets = tokenizer(example, return_offsets_mapping=<span class="hljs-literal">True</span>) | |
| tokens = inputs_with_offsets.tokens() | |
| offsets = inputs_with_offsets[<span class="hljs-string">"offset_mapping"</span>] | |
| idx = <span class="hljs-number">0</span> | |
| <span class="hljs-keyword">while</span> idx < <span class="hljs-built_in">len</span>(predictions): | |
| pred = predictions[idx] | |
| label = model.config.id2label[pred] | |
| <span class="hljs-keyword">if</span> label != <span class="hljs-string">"O"</span>: | |
| <span class="hljs-comment"># Xoá B- hoặc I-</span> | |
| label = label[<span class="hljs-number">2</span>:] | |
| start, _ = offsets[idx] | |
| <span class="hljs-comment"># Lấy tất cả các tokens có nhãn I-</span> | |
| all_scores = [] | |
| <span class="hljs-keyword">while</span> ( | |
| idx < <span class="hljs-built_in">len</span>(predictions) | |
| <span class="hljs-keyword">and</span> model.config.id2label[predictions[idx]] == <span class="hljs-string">f"I-<span class="hljs-subst">{label}</span>"</span> | |
| ): | |
| all_scores.append(probabilities[idx][pred]) | |
| _, end = offsets[idx] | |
| idx += <span class="hljs-number">1</span> | |
| <span class="hljs-comment"># Điểm là giá trị trung bình của tất cả điểm của các token trong thực thể được nhóm đó</span> | |
| score = np.mean(all_scores).item() | |
| word = example[start:end] | |
| results.append( | |
| { | |
| <span class="hljs-string">"entity_group"</span>: label, | |
| <span class="hljs-string">"score"</span>: score, | |
| <span class="hljs-string">"word"</span>: word, | |
| <span class="hljs-string">"start"</span>: start, | |
| <span class="hljs-string">"end"</span>: end, | |
| } | |
| ) | |
| idx += <span class="hljs-number">1</span> | |
| <span class="hljs-built_in">print</span>(results)`,wrap:!1}}),an=new d({props:{code:"JTVCJTdCJ2VudGl0eV9ncm91cCclM0ElMjAnUEVSJyUyQyUyMCdzY29yZSclM0ElMjAwLjk5ODE2OTQlMkMlMjAnd29yZCclM0ElMjAnU3lsdmFpbiclMkMlMjAnc3RhcnQnJTNBJTIwMTElMkMlMjAnZW5kJyUzQSUyMDE4JTdEJTJDJTBBJTIwJTdCJ2VudGl0eV9ncm91cCclM0ElMjAnT1JHJyUyQyUyMCdzY29yZSclM0ElMjAwLjk3OTYwMjA0JTJDJTIwJ3dvcmQnJTNBJTIwJ0h1Z2dpbmclMjBGYWNlJyUyQyUyMCdzdGFydCclM0ElMjAzMyUyQyUyMCdlbmQnJTNBJTIwNDUlN0QlMkMlMEElMjAlN0InZW50aXR5X2dyb3VwJyUzQSUyMCdMT0MnJTJDJTIwJ3Njb3JlJyUzQSUyMDAuOTkzMjEwNTUlMkMlMjAnd29yZCclM0ElMjAnQnJvb2tseW4nJTJDJTIwJ3N0YXJ0JyUzQSUyMDQ5JTJDJTIwJ2VuZCclM0ElMjA1NyU3RCU1RA==",highlighted:`[{<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'PER'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.9981694</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Sylvain'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">11</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">18</span>}, | |
| {<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'ORG'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.97960204</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Hugging Face'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">33</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">45</span>}, | |
| {<span class="hljs-string">'entity_group'</span>: <span class="hljs-string">'LOC'</span>, <span class="hljs-string">'score'</span>: <span class="hljs-number">0.99321055</span>, <span class="hljs-string">'word'</span>: <span class="hljs-string">'Brooklyn'</span>, <span class="hljs-string">'start'</span>: <span class="hljs-number">49</span>, <span class="hljs-string">'end'</span>: <span class="hljs-number">57</span>}]`,wrap:!1}}),cn=new na({props:{source:"https://github.com/huggingface/course/blob/main/chapters/vi/chapter6/3.mdx"}}),{c(){a=m("meta"),y=e(),p=m("p"),u=e(),r(f.$$.fragment),b=e(),r(I.$$.fragment),A=e(),C.c(),k=e(),$=m("p"),$.innerHTML=i,w=e(),r(V.$$.fragment),gn=e(),W=m("p"),W.innerHTML=Ol,un=e(),H=m("table"),H.innerHTML=Kl,Tn=e(),r(Z.$$.fragment),dn=e(),r(X.$$.fragment),bn=e(),r(D.$$.fragment),Un=e(),G=m("p"),G.innerHTML=st,xn=e(),Y=m("p"),Y.innerHTML=nt,wn=e(),L=m("p"),L.textContent=lt,kn=e(),r(F.$$.fragment),fn=e(),q=m("p"),q.innerHTML=tt,Cn=e(),r(P.$$.fragment),In=e(),O=m("p"),O.innerHTML=at,$n=e(),r(K.$$.fragment),An=e(),r(ss.$$.fragment),Qn=e(),ns=m("p"),ns.innerHTML=et,vn=e(),r(ls.$$.fragment),Bn=e(),r(ts.$$.fragment),Nn=e(),as=m("p"),as.textContent=ct,En=e(),r(es.$$.fragment),zn=e(),r(cs.$$.fragment),Zn=e(),ps=m("p"),ps.innerHTML=pt,Sn=e(),r(is.$$.fragment),Rn=e(),r(hs.$$.fragment),_n=e(),Ms=m("p"),Ms.innerHTML=it,Vn=e(),r(S.$$.fragment),Wn=e(),rs=m("p"),rs.innerHTML=ht,Hn=e(),Js=m("p"),Js.innerHTML=Mt,Xn=e(),r(os.$$.fragment),Dn=e(),r(js.$$.fragment),Gn=e(),ys=m("p"),ys.innerHTML=rt,Yn=e(),r(R.$$.fragment),Ln=e(),r(ms.$$.fragment),Fn=e(),gs=m("p"),gs.innerHTML=Jt,qn=e(),v.c(),Jn=e(),r(us.$$.fragment),Pn=e(),Ts=m("p"),Ts.innerHTML=ot,On=e(),r(ds.$$.fragment),Kn=e(),r(bs.$$.fragment),sl=e(),Us=m("p"),Us.textContent=jt,nl=e(),r(xs.$$.fragment),ll=e(),r(ws.$$.fragment),tl=e(),ks=m("p"),ks.innerHTML=yt,al=e(),fs=m("ul"),fs.innerHTML=mt,el=e(),Cs=m("p"),Cs.innerHTML=gt,cl=e(),r(Is.$$.fragment),pl=e(),N.c(),on=e(),$s=m("p"),$s.textContent=ut,il=e(),z.c(),jn=e(),r(As.$$.fragment),hl=e(),Qs=m("p"),Qs.innerHTML=Tt,Ml=e(),r(vs.$$.fragment),rl=e(),r(Bs.$$.fragment),Jl=e(),Ns=m("p"),Ns.innerHTML=dt,ol=e(),Es=m("p"),Es.innerHTML=bt,jl=e(),_=m("div"),_.innerHTML=Ut,yl=e(),zs=m("p"),zs.innerHTML=xt,ml=e(),r(Zs.$$.fragment),gl=e(),r(Ss.$$.fragment),ul=e(),Rs=m("p"),Rs.innerHTML=wt,Tl=e(),r(_s.$$.fragment),dl=e(),r(Vs.$$.fragment),bl=e(),Ws=m("p"),Ws.innerHTML=kt,Ul=e(),r(Hs.$$.fragment),xl=e(),Xs=m("p"),Xs.innerHTML=ft,wl=e(),r(Ds.$$.fragment),kl=e(),Gs=m("p"),Gs.textContent=Ct,fl=e(),r(Ys.$$.fragment),Cl=e(),r(Ls.$$.fragment),Il=e(),Fs=m("p"),Fs.textContent=It,$l=e(),r(qs.$$.fragment),Al=e(),Ps=m("p"),Ps.innerHTML=$t,Ql=e(),Os=m("p"),Os.innerHTML=At,vl=e(),r(Ks.$$.fragment),Bl=e(),r(sn.$$.fragment),Nl=e(),nn=m("p"),nn.innerHTML=Qt,El=e(),r(ln.$$.fragment),zl=e(),tn=m("p"),tn.textContent=vt,Zl=e(),r(an.$$.fragment),Sl=e(),en=m("p"),en.textContent=Bt,Rl=e(),r(cn.$$.fragment),_l=e(),mn=m("p"),this.h()},l(s){const n=Ot("svelte-u9bgzb",document.head);a=g(n,"META",{name:!0,content:!0}),n.forEach(l),y=c(s),p=g(s,"P",{}),Gt(p).forEach(l),u=c(s),J(f.$$.fragment,s),b=c(s),J(I.$$.fragment,s),A=c(s),C.l(s),k=c(s),$=g(s,"P",{"data-svelte-h":!0}),T($)!=="svelte-pe1re6"&&($.innerHTML=i),w=c(s),J(V.$$.fragment,s),gn=c(s),W=g(s,"P",{"data-svelte-h":!0}),T(W)!=="svelte-163hu8q"&&(W.innerHTML=Ol),un=c(s),H=g(s,"TABLE",{"data-svelte-h":!0}),T(H)!=="svelte-d86eae"&&(H.innerHTML=Kl),Tn=c(s),J(Z.$$.fragment,s),dn=c(s),J(X.$$.fragment,s),bn=c(s),J(D.$$.fragment,s),Un=c(s),G=g(s,"P",{"data-svelte-h":!0}),T(G)!=="svelte-6nu807"&&(G.innerHTML=st),xn=c(s),Y=g(s,"P",{"data-svelte-h":!0}),T(Y)!=="svelte-14yw437"&&(Y.innerHTML=nt),wn=c(s),L=g(s,"P",{"data-svelte-h":!0}),T(L)!=="svelte-1hcl7ca"&&(L.textContent=lt),kn=c(s),J(F.$$.fragment,s),fn=c(s),q=g(s,"P",{"data-svelte-h":!0}),T(q)!=="svelte-n2i654"&&(q.innerHTML=tt),Cn=c(s),J(P.$$.fragment,s),In=c(s),O=g(s,"P",{"data-svelte-h":!0}),T(O)!=="svelte-rt2abu"&&(O.innerHTML=at),$n=c(s),J(K.$$.fragment,s),An=c(s),J(ss.$$.fragment,s),Qn=c(s),ns=g(s,"P",{"data-svelte-h":!0}),T(ns)!=="svelte-1wclwuu"&&(ns.innerHTML=et),vn=c(s),J(ls.$$.fragment,s),Bn=c(s),J(ts.$$.fragment,s),Nn=c(s),as=g(s,"P",{"data-svelte-h":!0}),T(as)!=="svelte-9us3y3"&&(as.textContent=ct),En=c(s),J(es.$$.fragment,s),zn=c(s),J(cs.$$.fragment,s),Zn=c(s),ps=g(s,"P",{"data-svelte-h":!0}),T(ps)!=="svelte-x9so0q"&&(ps.innerHTML=pt),Sn=c(s),J(is.$$.fragment,s),Rn=c(s),J(hs.$$.fragment,s),_n=c(s),Ms=g(s,"P",{"data-svelte-h":!0}),T(Ms)!=="svelte-ob2tzt"&&(Ms.innerHTML=it),Vn=c(s),J(S.$$.fragment,s),Wn=c(s),rs=g(s,"P",{"data-svelte-h":!0}),T(rs)!=="svelte-1ulergp"&&(rs.innerHTML=ht),Hn=c(s),Js=g(s,"P",{"data-svelte-h":!0}),T(Js)!=="svelte-ccvpkz"&&(Js.innerHTML=Mt),Xn=c(s),J(os.$$.fragment,s),Dn=c(s),J(js.$$.fragment,s),Gn=c(s),ys=g(s,"P",{"data-svelte-h":!0}),T(ys)!=="svelte-tweb2u"&&(ys.innerHTML=rt),Yn=c(s),J(R.$$.fragment,s),Ln=c(s),J(ms.$$.fragment,s),Fn=c(s),gs=g(s,"P",{"data-svelte-h":!0}),T(gs)!=="svelte-1aujjng"&&(gs.innerHTML=Jt),qn=c(s),v.l(s),Jn=c(s),J(us.$$.fragment,s),Pn=c(s),Ts=g(s,"P",{"data-svelte-h":!0}),T(Ts)!=="svelte-18dwdu9"&&(Ts.innerHTML=ot),On=c(s),J(ds.$$.fragment,s),Kn=c(s),J(bs.$$.fragment,s),sl=c(s),Us=g(s,"P",{"data-svelte-h":!0}),T(Us)!=="svelte-ga2jm"&&(Us.textContent=jt),nl=c(s),J(xs.$$.fragment,s),ll=c(s),J(ws.$$.fragment,s),tl=c(s),ks=g(s,"P",{"data-svelte-h":!0}),T(ks)!=="svelte-3j75dd"&&(ks.innerHTML=yt),al=c(s),fs=g(s,"UL",{"data-svelte-h":!0}),T(fs)!=="svelte-r2bjtl"&&(fs.innerHTML=mt),el=c(s),Cs=g(s,"P",{"data-svelte-h":!0}),T(Cs)!=="svelte-14axwul"&&(Cs.innerHTML=gt),cl=c(s),J(Is.$$.fragment,s),pl=c(s),N.l(s),on=c(s),$s=g(s,"P",{"data-svelte-h":!0}),T($s)!=="svelte-17otz57"&&($s.textContent=ut),il=c(s),z.l(s),jn=c(s),J(As.$$.fragment,s),hl=c(s),Qs=g(s,"P",{"data-svelte-h":!0}),T(Qs)!=="svelte-1nmu1xf"&&(Qs.innerHTML=Tt),Ml=c(s),J(vs.$$.fragment,s),rl=c(s),J(Bs.$$.fragment,s),Jl=c(s),Ns=g(s,"P",{"data-svelte-h":!0}),T(Ns)!=="svelte-1jkug7p"&&(Ns.innerHTML=dt),ol=c(s),Es=g(s,"P",{"data-svelte-h":!0}),T(Es)!=="svelte-1u2cm2y"&&(Es.innerHTML=bt),jl=c(s),_=g(s,"DIV",{class:!0,"data-svelte-h":!0}),T(_)!=="svelte-qf2tof"&&(_.innerHTML=Ut),yl=c(s),zs=g(s,"P",{"data-svelte-h":!0}),T(zs)!=="svelte-2yu6p3"&&(zs.innerHTML=xt),ml=c(s),J(Zs.$$.fragment,s),gl=c(s),J(Ss.$$.fragment,s),ul=c(s),Rs=g(s,"P",{"data-svelte-h":!0}),T(Rs)!=="svelte-21os3p"&&(Rs.innerHTML=wt),Tl=c(s),J(_s.$$.fragment,s),dl=c(s),J(Vs.$$.fragment,s),bl=c(s),Ws=g(s,"P",{"data-svelte-h":!0}),T(Ws)!=="svelte-19s4s4v"&&(Ws.innerHTML=kt),Ul=c(s),J(Hs.$$.fragment,s),xl=c(s),Xs=g(s,"P",{"data-svelte-h":!0}),T(Xs)!=="svelte-1uvyvky"&&(Xs.innerHTML=ft),wl=c(s),J(Ds.$$.fragment,s),kl=c(s),Gs=g(s,"P",{"data-svelte-h":!0}),T(Gs)!=="svelte-1w2i2ec"&&(Gs.textContent=Ct),fl=c(s),J(Ys.$$.fragment,s),Cl=c(s),J(Ls.$$.fragment,s),Il=c(s),Fs=g(s,"P",{"data-svelte-h":!0}),T(Fs)!=="svelte-14dbrr4"&&(Fs.textContent=It),$l=c(s),J(qs.$$.fragment,s),Al=c(s),Ps=g(s,"P",{"data-svelte-h":!0}),T(Ps)!=="svelte-rlhw3h"&&(Ps.innerHTML=$t),Ql=c(s),Os=g(s,"P",{"data-svelte-h":!0}),T(Os)!=="svelte-xjt0zu"&&(Os.innerHTML=At),vl=c(s),J(Ks.$$.fragment,s),Bl=c(s),J(sn.$$.fragment,s),Nl=c(s),nn=g(s,"P",{"data-svelte-h":!0}),T(nn)!=="svelte-36cm43"&&(nn.innerHTML=Qt),El=c(s),J(ln.$$.fragment,s),zl=c(s),tn=g(s,"P",{"data-svelte-h":!0}),T(tn)!=="svelte-16hmfx1"&&(tn.textContent=vt),Zl=c(s),J(an.$$.fragment,s),Sl=c(s),en=g(s,"P",{"data-svelte-h":!0}),T(en)!=="svelte-1hj5n7h"&&(en.textContent=Bt),Rl=c(s),J(cn.$$.fragment,s),_l=c(s),mn=g(s,"P",{}),Gt(mn).forEach(l),this.h()},h(){Fl(a,"name","hf:doc:metadata"),Fl(a,"content",ja),Fl(_,"class","flex justify-center")},m(s,n){Kt(document.head,a),t(s,y,n),t(s,p,n),t(s,u,n),o(f,s,n),t(s,b,n),o(I,s,n),t(s,A,n),pn[U].m(s,n),t(s,k,n),t(s,$,n),t(s,w,n),o(V,s,n),t(s,gn,n),t(s,W,n),t(s,un,n),t(s,H,n),t(s,Tn,n),o(Z,s,n),t(s,dn,n),o(X,s,n),t(s,bn,n),o(D,s,n),t(s,Un,n),t(s,G,n),t(s,xn,n),t(s,Y,n),t(s,wn,n),t(s,L,n),t(s,kn,n),o(F,s,n),t(s,fn,n),t(s,q,n),t(s,Cn,n),o(P,s,n),t(s,In,n),t(s,O,n),t(s,$n,n),o(K,s,n),t(s,An,n),o(ss,s,n),t(s,Qn,n),t(s,ns,n),t(s,vn,n),o(ls,s,n),t(s,Bn,n),o(ts,s,n),t(s,Nn,n),t(s,as,n),t(s,En,n),o(es,s,n),t(s,zn,n),o(cs,s,n),t(s,Zn,n),t(s,ps,n),t(s,Sn,n),o(is,s,n),t(s,Rn,n),o(hs,s,n),t(s,_n,n),t(s,Ms,n),t(s,Vn,n),o(S,s,n),t(s,Wn,n),t(s,rs,n),t(s,Hn,n),t(s,Js,n),t(s,Xn,n),o(os,s,n),t(s,Dn,n),o(js,s,n),t(s,Gn,n),t(s,ys,n),t(s,Yn,n),o(R,s,n),t(s,Ln,n),o(ms,s,n),t(s,Fn,n),t(s,gs,n),t(s,qn,n),hn[Q].m(s,n),t(s,Jn,n),o(us,s,n),t(s,Pn,n),t(s,Ts,n),t(s,On,n),o(ds,s,n),t(s,Kn,n),o(bs,s,n),t(s,sl,n),t(s,Us,n),t(s,nl,n),o(xs,s,n),t(s,ll,n),o(ws,s,n),t(s,tl,n),t(s,ks,n),t(s,al,n),t(s,fs,n),t(s,el,n),t(s,Cs,n),t(s,cl,n),o(Is,s,n),t(s,pl,n),Mn[B].m(s,n),t(s,on,n),t(s,$s,n),t(s,il,n),rn[E].m(s,n),t(s,jn,n),o(As,s,n),t(s,hl,n),t(s,Qs,n),t(s,Ml,n),o(vs,s,n),t(s,rl,n),o(Bs,s,n),t(s,Jl,n),t(s,Ns,n),t(s,ol,n),t(s,Es,n),t(s,jl,n),t(s,_,n),t(s,yl,n),t(s,zs,n),t(s,ml,n),o(Zs,s,n),t(s,gl,n),o(Ss,s,n),t(s,ul,n),t(s,Rs,n),t(s,Tl,n),o(_s,s,n),t(s,dl,n),o(Vs,s,n),t(s,bl,n),t(s,Ws,n),t(s,Ul,n),o(Hs,s,n),t(s,xl,n),t(s,Xs,n),t(s,wl,n),o(Ds,s,n),t(s,kl,n),t(s,Gs,n),t(s,fl,n),o(Ys,s,n),t(s,Cl,n),o(Ls,s,n),t(s,Il,n),t(s,Fs,n),t(s,$l,n),o(qs,s,n),t(s,Al,n),t(s,Ps,n),t(s,Ql,n),t(s,Os,n),t(s,vl,n),o(Ks,s,n),t(s,Bl,n),o(sn,s,n),t(s,Nl,n),t(s,nn,n),t(s,El,n),o(ln,s,n),t(s,zl,n),t(s,tn,n),t(s,Zl,n),o(an,s,n),t(s,Sl,n),t(s,en,n),t(s,Rl,n),o(cn,s,n),t(s,_l,n),t(s,mn,n),Vl=!0},p(s,[n]){const Wt={};n&1&&(Wt.fw=s[0]),f.$set(Wt);let Dl=U;U=Et(s),U!==Dl&&(Hl(),h(pn[Dl],1,1,()=>{pn[Dl]=null}),Wl(),C=pn[U],C||(C=pn[U]=Nt[U](s),C.c()),M(C,1),C.m(k.parentNode,k));const Ht={};n&2&&(Ht.$$scope={dirty:n,ctx:s}),Z.$set(Ht);const Xt={};n&2&&(Xt.$$scope={dirty:n,ctx:s}),S.$set(Xt);const Dt={};n&2&&(Dt.$$scope={dirty:n,ctx:s}),R.$set(Dt);let Gl=Q;Q=Zt(s),Q!==Gl&&(Hl(),h(hn[Gl],1,1,()=>{hn[Gl]=null}),Wl(),v=hn[Q],v||(v=hn[Q]=zt[Q](s),v.c()),M(v,1),v.m(Jn.parentNode,Jn));let Yl=B;B=Rt(s),B!==Yl&&(Hl(),h(Mn[Yl],1,1,()=>{Mn[Yl]=null}),Wl(),N=Mn[B],N||(N=Mn[B]=St[B](s),N.c()),M(N,1),N.m(on.parentNode,on));let Ll=E;E=Vt(s),E!==Ll&&(Hl(),h(rn[Ll],1,1,()=>{rn[Ll]=null}),Wl(),z=rn[E],z||(z=rn[E]=_t[E](s),z.c()),M(z,1),z.m(jn.parentNode,jn))},i(s){Vl||(M(f.$$.fragment,s),M(I.$$.fragment,s),M(C),M(V.$$.fragment,s),M(Z.$$.fragment,s),M(X.$$.fragment,s),M(D.$$.fragment,s),M(F.$$.fragment,s),M(P.$$.fragment,s),M(K.$$.fragment,s),M(ss.$$.fragment,s),M(ls.$$.fragment,s),M(ts.$$.fragment,s),M(es.$$.fragment,s),M(cs.$$.fragment,s),M(is.$$.fragment,s),M(hs.$$.fragment,s),M(S.$$.fragment,s),M(os.$$.fragment,s),M(js.$$.fragment,s),M(R.$$.fragment,s),M(ms.$$.fragment,s),M(v),M(us.$$.fragment,s),M(ds.$$.fragment,s),M(bs.$$.fragment,s),M(xs.$$.fragment,s),M(ws.$$.fragment,s),M(Is.$$.fragment,s),M(N),M(z),M(As.$$.fragment,s),M(vs.$$.fragment,s),M(Bs.$$.fragment,s),M(Zs.$$.fragment,s),M(Ss.$$.fragment,s),M(_s.$$.fragment,s),M(Vs.$$.fragment,s),M(Hs.$$.fragment,s),M(Ds.$$.fragment,s),M(Ys.$$.fragment,s),M(Ls.$$.fragment,s),M(qs.$$.fragment,s),M(Ks.$$.fragment,s),M(sn.$$.fragment,s),M(ln.$$.fragment,s),M(an.$$.fragment,s),M(cn.$$.fragment,s),Vl=!0)},o(s){h(f.$$.fragment,s),h(I.$$.fragment,s),h(C),h(V.$$.fragment,s),h(Z.$$.fragment,s),h(X.$$.fragment,s),h(D.$$.fragment,s),h(F.$$.fragment,s),h(P.$$.fragment,s),h(K.$$.fragment,s),h(ss.$$.fragment,s),h(ls.$$.fragment,s),h(ts.$$.fragment,s),h(es.$$.fragment,s),h(cs.$$.fragment,s),h(is.$$.fragment,s),h(hs.$$.fragment,s),h(S.$$.fragment,s),h(os.$$.fragment,s),h(js.$$.fragment,s),h(R.$$.fragment,s),h(ms.$$.fragment,s),h(v),h(us.$$.fragment,s),h(ds.$$.fragment,s),h(bs.$$.fragment,s),h(xs.$$.fragment,s),h(ws.$$.fragment,s),h(Is.$$.fragment,s),h(N),h(z),h(As.$$.fragment,s),h(vs.$$.fragment,s),h(Bs.$$.fragment,s),h(Zs.$$.fragment,s),h(Ss.$$.fragment,s),h(_s.$$.fragment,s),h(Vs.$$.fragment,s),h(Hs.$$.fragment,s),h(Ds.$$.fragment,s),h(Ys.$$.fragment,s),h(Ls.$$.fragment,s),h(qs.$$.fragment,s),h(Ks.$$.fragment,s),h(sn.$$.fragment,s),h(ln.$$.fragment,s),h(an.$$.fragment,s),h(cn.$$.fragment,s),Vl=!1},d(s){s&&(l(y),l(p),l(u),l(b),l(A),l(k),l($),l(w),l(gn),l(W),l(un),l(H),l(Tn),l(dn),l(bn),l(Un),l(G),l(xn),l(Y),l(wn),l(L),l(kn),l(fn),l(q),l(Cn),l(In),l(O),l($n),l(An),l(Qn),l(ns),l(vn),l(Bn),l(Nn),l(as),l(En),l(zn),l(Zn),l(ps),l(Sn),l(Rn),l(_n),l(Ms),l(Vn),l(Wn),l(rs),l(Hn),l(Js),l(Xn),l(Dn),l(Gn),l(ys),l(Yn),l(Ln),l(Fn),l(gs),l(qn),l(Jn),l(Pn),l(Ts),l(On),l(Kn),l(sl),l(Us),l(nl),l(ll),l(tl),l(ks),l(al),l(fs),l(el),l(Cs),l(cl),l(pl),l(on),l($s),l(il),l(jn),l(hl),l(Qs),l(Ml),l(rl),l(Jl),l(Ns),l(ol),l(Es),l(jl),l(_),l(yl),l(zs),l(ml),l(gl),l(ul),l(Rs),l(Tl),l(dl),l(bl),l(Ws),l(Ul),l(xl),l(Xs),l(wl),l(kl),l(Gs),l(fl),l(Cl),l(Il),l(Fs),l($l),l(Al),l(Ps),l(Ql),l(Os),l(vl),l(Bl),l(Nl),l(nn),l(El),l(zl),l(tn),l(Zl),l(Sl),l(en),l(Rl),l(_l),l(mn)),l(a),j(f,s),j(I,s),pn[U].d(s),j(V,s),j(Z,s),j(X,s),j(D,s),j(F,s),j(P,s),j(K,s),j(ss,s),j(ls,s),j(ts,s),j(es,s),j(cs,s),j(is,s),j(hs,s),j(S,s),j(os,s),j(js,s),j(R,s),j(ms,s),hn[Q].d(s),j(us,s),j(ds,s),j(bs,s),j(xs,s),j(ws,s),j(Is,s),Mn[B].d(s),rn[E].d(s),j(As,s),j(vs,s),j(Bs,s),j(Zs,s),j(Ss,s),j(_s,s),j(Vs,s),j(Hs,s),j(Ds,s),j(Ys,s),j(Ls,s),j(qs,s),j(Ks,s),j(sn,s),j(ln,s),j(an,s),j(cn,s)}}}const ja='{"title":"Sức mạnh đặc biệt của tokenizer nhanh","local":"sức-mạnh-đặc-biệt-của-tokenizer-nhanh","sections":[{"title":"Mã hoá theo lô","local":"mã-hoá-theo-lô","sections":[],"depth":2},{"title":"Bên trong pipeline token-classification","local":"bên-trong-pipeline-token-classification","sections":[{"title":"Nhận kết quả cơ sở với baseline","local":"nhận-kết-quả-cơ-sở-với-baseline","sections":[],"depth":3},{"title":"Từ đầu vào tới dự đoán","local":"từ-đầu-vào-tới-dự-đoán","sections":[],"depth":3},{"title":"Nhóm các thực thể","local":"nhóm-các-thực-thể","sections":[],"depth":3}],"depth":2}],"depth":1}';function ya(x,a,y){let p="pt";return Ft(()=>{const u=new URLSearchParams(window.location.search);y(0,p=u.get("fw")||"pt")}),[p]}class wa extends qt{constructor(a){super(),Pt(this,a,ya,oa,Lt,{})}}export{wa as component}; | |
Xet Storage Details
- Size:
- 85.2 kB
- Xet hash:
- 9d4756e943e05094bf56f13e0d2e75d946ea8652a2261f7bcafa9a83d9ec5167
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.