Buckets:
| import{s as Zl,o as Jl,n as Kl}from"../chunks/scheduler.1d51f4c0.js";import{S as en,i as tn,g as a,s,r as o,A as ln,h as r,f as l,c as i,j as Xl,u as p,x as m,k as d,y as nn,a as n,v as u,d as g,t as c,w as v}from"../chunks/index.85d39492.js";import{T as sn,Y as Xt}from"../chunks/Youtube.4f1624ff.js";import{C as an}from"../chunks/CourseFloatingBanner.5978eac6.js";import{H as x,E as rn}from"../chunks/getInferenceSnippets.a4ecc04c.js";function mn(Ie){let f,P="🚀 ఇక్కడ మనం విషయాలను మరింత లోతుగా తెలుసుకుంటున్నాం. ఈ విభాగం వివరంగా మరియు సాంకేతికంగా ఉంటుంది, కాబట్టి మీరు వెంటనే అన్నింటినీ అర్థం చేసుకోకపోయినా చింతించకండి. కోర్సులో తరువాత ఈ భావనల వద్దకు మనం తిరిగి వస్తాము.";return{c(){f=a("p"),f.textContent=P},l(h){f=r(h,"P",{"data-svelte-h":!0}),m(f)!=="svelte-mcmx8a"&&(f.textContent=P)},m(h,Be){n(h,f,Be)},p:Kl,d(h){h&&l(f)}}}function fn(Ie){let f,P,h,Be,y,qe,j,ze,E,Zt="ఈ విభాగంలో, మనం Transformer మోడల్స్ యొక్క ఆర్కిటెక్చర్ను పరిశీలిద్దాం మరియు అటెన్షన్, ఎన్కోడర్-డీకోడర్ ఆర్కిటెక్చర్ వంటి భావనలను లోతుగా చర్చిద్దాం.",Ae,T,De,B,Ve,G,Jt="Transformer మోడల్స్ యొక్క (సంక్షిప్త) చరిత్రలో కొన్ని ముఖ్యమైన ఘట్టాలు ఇక్కడ ఉన్నాయి:",Re,$,Kt='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg" alt="A brief chronology of Transformers models."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono-dark.svg" alt="A brief chronology of Transformers models."/>',Ue,I,el='<a href="https://arxiv.org/abs/1706.03762" rel="nofollow">Transformer ఆర్కిటెక్చర్</a> జూన్ 2017లో పరిచయం చేయబడింది. అసలు పరిశోధన యొక్క ముఖ్య ఉద్దేశ్యం అనువాద పనులపై ఉండేది. దీని తర్వాత అనేక ప్రభావవంతమైన మోడల్స్ వచ్చాయి, వాటిలో కొన్ని:',Ne,q,tl='<li><p><strong>జూన్ 2018</strong>: <a href="https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf" rel="nofollow">GPT</a>, మొదటి ప్రీ-ట్రైన్డ్ Transformer మోడల్. ఇది వివిధ NLP పనులపై ఫైన్-ట్యూనింగ్ కోసం ఉపయోగించబడింది మరియు అత్యుత్తమ ఫలితాలను సాధించింది.</p></li> <li><p><strong>అక్టోబర్ 2018</strong>: <a href="https://arxiv.org/abs/1810.04805" rel="nofollow">BERT</a>, మరొక పెద్ద ప్రీ-ట్రైన్డ్ మోడల్. ఇది వాక్యాల యొక్క మెరుగైన సారాంశాలను ఉత్పత్తి చేయడానికి రూపొందించబడింది (దీని గురించి తదుపరి అధ్యాయంలో మరింత!)</p></li> <li><p><strong>ఫిబ్రవరి 2019</strong>: <a href="https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf" rel="nofollow">GPT-2</a>, GPT యొక్క మెరుగైన (మరియు పెద్ద) వెర్షన్, ఇది నైతిక ఆందోళనల కారణంగా వెంటనే బహిరంగంగా విడుదల కాలేదు.</p></li> <li><p><strong>అక్టోబర్ 2019</strong>: <a href="https://huggingface.co/papers/1910.10683" rel="nofollow">T5</a>, సీక్వెన్స్-టు-సీక్వెన్స్ Transformer ఆర్కిటెక్చర్ యొక్క బహుళ-పని ఆధారిత అమలు.</p></li> <li><p><strong>మే 2020</strong>, <a href="https://huggingface.co/papers/2005.14165" rel="nofollow">GPT-3</a>, GPT-2 యొక్క మరింత పెద్ద వెర్షన్. ఇది ఫైన్-ట్యూనింగ్ అవసరం లేకుండా వివిధ పనులపై బాగా పనిచేయగలదు (<em>zero-shot learning</em> అని పిలుస్తారు).</p></li> <li><p><strong>జనవరి 2022</strong>: <a href="https://huggingface.co/papers/2203.02155" rel="nofollow">InstructGPT</a>, సూచనలను మరింత మెరుగ్గా పాటించడానికి శిక్షణ పొందిన GPT-3 యొక్క వెర్షన్.</p></li> <li><p><strong>జనవరి 2023</strong>: <a href="https://huggingface.co/papers/2302.13971" rel="nofollow">Llama</a>, వివిధ భాషలలో టెక్స్ట్ను ఉత్పత్తి చేయగల ఒక పెద్ద భాషా నమూనా.</p></li> <li><p><strong>మార్చి 2023</strong>: <a href="https://huggingface.co/papers/2310.06825" rel="nofollow">Mistral</a>, 7-బిలియన్-పారామీటర్ల భాషా నమూనా, ఇది అన్ని మూల్యాంకన బెంచ్మార్క్లలో Llama 2 13B ను అధిగమించింది. వేగవంతమైన ఇన్ఫరెన్స్ కోసం గ్రూప్డ్-క్వరీ అటెన్షన్ మరియు ఏకపక్ష పొడవు గల సీక్వెన్సులను నిర్వహించడానికి స్లైడింగ్ విండో అటెన్షన్ను ఉపయోగిస్తుంది.</p></li> <li><p><strong>మే 2024</strong>: <a href="https://huggingface.co/papers/2408.00118" rel="nofollow">Gemma 2</a>, 2B నుండి 27B పారామీటర్ల వరకు ఉండే తేలికపాటి, అత్యాధునిక ఓపెన్ మోడల్స్ యొక్క కుటుంబం. ఇవి ఇంటర్లీవ్డ్ లోకల్-గ్లోబల్ అటెన్షన్స్ మరియు గ్రూప్-క్వరీ అటెన్షన్ను కలిగి ఉంటాయి, మరియు 2-3 రెట్లు పెద్ద మోడల్స్తో పోటీపడే పనితీరును అందించడానికి నాలెడ్జ్ డిస్టిలేషన్ ఉపయోగించి చిన్న మోడల్స్కు శిక్షణ ఇవ్వబడింది.</p></li> <li><p><strong>నవంబర్ 2024</strong>: <a href="https://huggingface.co/papers/2502.02737" rel="nofollow">SmolLM2</a>, అత్యాధునిక చిన్న భాషా నమూనా (135 మిలియన్ల నుండి 1.7 బిలియన్ల పారామీటర్లు), ఇది దాని కాంపాక్ట్ సైజు ఉన్నప్పటికీ ఆకట్టుకునే పనితీరును సాధిస్తుంది మరియు మొబైల్ మరియు ఎడ్జ్ పరికరాల కోసం కొత్త అవకాశాలను అన్లాక్ చేస్తుంది.</p></li>',Se,z,ll="ఈ జాబితా పూర్తి కాదు మరియు ఇది కేవలం కొన్ని రకాల Transformer నమూనాలను హైలైట్ చేయడానికి మాత్రమే ఉద్దేశించబడింది. విస్తృతంగా, వీటిని మూడు వర్గాలుగా విభజించవచ్చు:",Ye,A,nl="<li>GPT-లాంటి (వీటిని <em>auto-regressive</em> Transformer మోడల్స్ అని కూడా అంటారు)</li> <li>BERT-లాంటి (వీటిని <em>auto-encoding</em> Transformer మోడల్స్ అని కూడా అంటారు)</li> <li>T5-లాంటి (వీటిని <em>sequence-to-sequence</em> Transformer మోడల్స్ అని కూడా అంటారు)</li>",Fe,D,sl="మనం ఈ కుటుంబాల గురించి తరువాత మరింత లోతుగా చర్చిస్తాము.",Oe,V,Qe,R,il="పైన పేర్కొన్న అన్ని Transformer మోడల్స్ (GPT, BERT, T5, మొదలైనవి) <em>భాషా నమూనాలుగా</em> శిక్షణ పొందాయి. అంటే అవి స్వీయ-పర్యవేక్షిత పద్ధతిలో భారీ మొత్తంలో ముడి టెక్స్ట్పై శిక్షణ పొందాయి.",We,U,al="స్వీయ-పర్యవేక్షిత అభ్యాసం (Self-supervised learning) అనేది ఒక రకమైన శిక్షణ, దీనిలో మోడల్ యొక్క ఇన్పుట్ల నుండి లక్ష్యం స్వయంచాలకంగా లెక్కించబడుతుంది. అంటే డేటాను లేబుల్ చేయడానికి మానవులు అవసరం లేదు!",Xe,N,rl="ఈ రకమైన మోడల్, శిక్షణ పొందిన భాషపై గణాంక అవగాహనను పెంచుకుంటుంది, కానీ ఇది నిర్దిష్ట ఆచరణాత్మక పనులకు అంతగా ఉపయోగపడదు. ఈ కారణంగా, సాధారణ ప్రీ-ట్రైన్డ్ మోడల్ తరువాత <em>ట్రాన్స్ఫర్ లెర్నింగ్</em> లేదా <em>ఫైన్-ట్యూనింగ్</em> అనే ప్రక్రియ ద్వారా వెళుతుంది. ఈ ప్రక్రియలో, మోడల్ ఒక నిర్దిష్ట పనిపై పర్యవేక్షిత పద్ధతిలో — అంటే, మానవ-అన్నొటేటెడ్ లేబుల్స్ ఉపయోగించి — ఫైన్-ట్యూన్ చేయబడుతుంది.",Ze,S,ml="ఒక పనికి ఉదాహరణ, ఒక వాక్యం లోని <em>n</em> మునుపటి పదాలను చదివిన తరువాత తదుపరి పదాన్ని అంచనా వేయడం. దీనిని <em>కాజువల్ లాంగ్వేజ్ మోడలింగ్</em> అని అంటారు, ఎందుకంటే అవుట్పుట్ గతం మరియు ప్రస్తుత ఇన్పుట్లపై ఆధారపడి ఉంటుంది, కానీ భవిష్యత్తు వాటిపై కాదు.",Je,C,fl='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/causal_modeling.svg" alt="Example of causal language modeling in which the next word from a sentence is predicted."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/causal_modeling-dark.svg" alt="Example of causal language modeling in which the next word from a sentence is predicted."/>',Ke,Y,ol="మరొక ఉదాహరణ <em>Masked language modelling</em>, దీనిలో మోడల్ వాక్యంలోని మాస్క్ చేయబడిన పదాన్ని అంచనా వేస్తుంది.",et,_,pl='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling.svg" alt="Example of masked language modeling in which a masked word from a sentence is predicted."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling-dark.svg" alt="Example of masked language modeling in which a masked word from a sentence is predicted."/>',tt,F,lt,O,ul="కొన్ని మినహాయింపులు (DistilBERT వంటివి) తప్ప, మెరుగైన పనితీరును సాధించడానికి సాధారణ వ్యూహం, మోడల్స్ యొక్క పరిమాణాలను అలాగే అవి ప్రీ-ట్రైనింగ్ చేయబడిన డేటా మొత్తాన్ని పెంచడం.",nt,k,gl='<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/model_parameters.png" alt="Number of parameters of recent Transformers models" width="90%"/>',st,Q,cl="దురదృష్టవశాత్తు, ఒక మోడల్ను, ముఖ్యంగా పెద్ద మోడల్ను శిక్షణ ఇవ్వడానికి, పెద్ద మొత్తంలో డేటా అవసరం. సమయం మరియు గణన వనరుల పరంగా ఇది చాలా ఖర్చుతో కూడుకున్నది. ఇది పర్యావరణ ప్రభావానికి కూడా దారితీస్తుంది, కింది గ్రాఫ్లో చూడవచ్చు.",it,L,vl='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint.svg" alt="The carbon footprint of a large language model."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint-dark.svg" alt="The carbon footprint of a large language model."/>',at,W,rt,X,hl="మరియు ఇది ప్రీ-ట్రైనింగ్ యొక్క పర్యావరణ ప్రభావాన్ని తగ్గించడానికి స్పృహతో ప్రయత్నిస్తున్న ఒక బృందం నేతృత్వంలోని ఒక (చాలా పెద్ద) మోడల్ కోసం ఒక ప్రాజెక్ట్ను చూపుతోంది. ఉత్తమ హైపర్పారామీటర్లను పొందడానికి చాలా ట్రయల్స్ నడపడం యొక్క ఫుట్ప్రింట్ ఇంకా ఎక్కువగా ఉంటుంది.",mt,Z,dl="ఒక పరిశోధన బృందం, ఒక విద్యార్థి సంస్థ, లేదా ఒక సంస్థ ప్రతిసారీ ఒక మోడల్ను శిక్షణ ఇవ్వాలనుకుంటే, అది మొదటి నుండి అలా చేస్తే ఎలా ఉంటుందో ఊహించండి. ఇది భారీ, అనవసరమైన ప్రపంచ వ్యయాలకు దారితీస్తుంది!",ft,J,xl="అందుకే భాషా నమూనాలను పంచుకోవడం చాలా ముఖ్యం: శిక్షణ పొందిన వెయిట్స్ పంచుకోవడం మరియు ఇప్పటికే శిక్షణ పొందిన వెయిట్స్ పైన నిర్మించడం ద్వారా కమ్యూనిటీ యొక్క మొత్తం గణన వ్యయాన్ని మరియు కార్బన్ ఫుట్ప్రింట్ను తగ్గిస్తుంది.",ot,K,Tl='అలాగే, మీరు మీ మోడల్స్ శిక్షణ యొక్క కార్బన్ ఫుట్ప్రింట్ను అనేక సాధనాల ద్వారా మూల్యాంకనం చేయవచ్చు. ఉదాహరణకు <a href="https://mlco2.github.io/impact/" rel="nofollow">ML CO2 Impact</a> లేదా <a href="https://codecarbon.io/" rel="nofollow">Code Carbon</a> ఇది 🤗 Transformers లో విలీనం చేయబడింది. దీని గురించి మరింత తెలుసుకోవడానికి, మీరు ఈ <a href="https://huggingface.co/blog/carbon-emissions-on-the-hub" rel="nofollow">బ్లాగ్ పోస్ట్</a> చదవచ్చు, ఇది మీ శిక్షణ యొక్క ఫుట్ప్రింట్ యొక్క అంచనాతో <code>emissions.csv</code> ఫైల్ను ఎలా రూపొందించాలో చూపుతుంది, అలాగే ఈ అంశాన్ని పరిష్కరించే 🤗 Transformers యొక్క <a href="https://huggingface.co/docs/hub/model-cards-co2" rel="nofollow">డాక్యుమెంటేషన్</a> కూడా చూడవచ్చు.',pt,ee,ut,te,gt,le,$l="<em>Pretraining</em> అంటే ఒక మోడల్ను మొదటి నుండి శిక్షణ ఇవ్వడం: వెయిట్స్ యాదృచ్ఛికంగా ప్రారంభించబడతాయి మరియు శిక్షణ ఎటువంటి ముందస్తు జ్ఞానం లేకుండా మొదలవుతుంది.",ct,b,Cl='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining.svg" alt="The pretraining of a language model is costly in both time and money."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining-dark.svg" alt="The pretraining of a language model is costly in both time and money."/>',vt,ne,_l="ఈ ప్రీ-ట్రైనింగ్ సాధారణంగా చాలా పెద్ద మొత్తంలో డేటాపై జరుగుతుంది. అందువల్ల, దీనికి చాలా పెద్ద డేటా కార్పస్ అవసరం, మరియు శిక్షణ పూర్తి కావడానికి చాలా వారాలు పట్టవచ్చు.",ht,se,kl="<em>Fine-tuning</em> అనేది, ఒక మోడల్ ప్రీ-ట్రైనింగ్ చేయబడిన <strong>తరువాత</strong> జరిగే శిక్షణ. ఫైన్-ట్యూనింగ్ చేయడానికి, మీరు మొదట ఒక ప్రీ-ట్రైన్డ్ భాషా నమూనాను పొందుతారు, ఆపై మీ పనికి సంబంధించిన నిర్దిష్ట డేటాసెట్తో అదనపు శిక్షణ ఇస్తారు. ఒక్క నిమిషం — మీ తుది వినియోగం కోసం మోడల్ను మొదటి నుండి (<strong>scratch</strong>) ఎందుకు శిక్షణ ఇవ్వకూడదు? దీనికి కొన్ని కారణాలు ఉన్నాయి:",dt,ie,Ll="<li>ప్రీ-ట్రైన్డ్ మోడల్ ఇప్పటికే ఫైన్-ట్యూనింగ్ డేటాసెట్తో కొన్ని సారూప్యతలను కలిగి ఉన్న డేటాసెట్పై శిక్షణ పొందింది. అందువల్ల ఫైన్-ట్యూనింగ్ ప్రక్రియ ప్రీ-ట్రైనింగ్ సమయంలో ప్రారంభ మోడల్ పొందిన జ్ఞానాన్ని ఉపయోగించుకోగలదు (ఉదాహరణకు, NLP సమస్యలతో, ప్రీ-ట్రైన్డ్ మోడల్ మీ పని కోసం మీరు ఉపయోగిస్తున్న భాషపై ఒకరకమైన గణాంక అవగాహనను కలిగి ఉంటుంది).</li> <li>ప్రీ-ట్రైన్డ్ మోడల్ ఇప్పటికే చాలా డేటాపై శిక్షణ పొందింది కాబట్టి, ఫైన్-ట్యూనింగ్కు మంచి ఫలితాలను పొందడానికి చాలా తక్కువ డేటా అవసరం.</li> <li>అదే కారణంతో, మంచి ఫలితాలను పొందడానికి అవసరమైన సమయం మరియు వనరులు చాలా తక్కువ.</li>",xt,ae,bl="ఉదాహరణకు, ఇంగ్లీష్ భాషపై శిక్షణ పొందిన ఒక ప్రీ-ట్రైన్డ్ మోడల్ను ఉపయోగించి, ఆ తర్వాత దాన్ని ఒక arXiv కార్పస్పై ఫైన్-ట్యూన్ చేయడం ద్వారా ఒక సైన్స్/పరిశోధన ఆధారిత మోడల్ను పొందవచ్చు. ఫైన్-ట్యూనింగ్కు పరిమిత మొత్తంలో డేటా మాత్రమే అవసరం: ప్రీ-ట్రైన్డ్ మోడల్ పొందిన జ్ఞానం “బదిలీ” చేయబడుతుంది, అందుకే <em>ట్రాన్స్ఫర్ లెర్నింగ్</em> అనే పదం వచ్చింది.",Tt,M,Ml='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning.svg" alt="The fine-tuning of a language model is cheaper than pretraining in both time and money."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning-dark.svg" alt="The fine-tuning of a language model is cheaper than pretraining in both time and money."/>',$t,re,Hl="అందువల్ల, ఒక మోడల్ను ఫైన్-ట్యూన్ చేయడం తక్కువ సమయం, డేటా, ఆర్థిక, మరియు పర్యావరణ వ్యయాలను కలిగి ఉంటుంది. పూర్తి ప్రీ-ట్రైనింగ్ కంటే శిక్షణ తక్కువ నిర్బంధంగా ఉన్నందున, వివిధ ఫైన్-ట్యూనింగ్ స్కీమ్లను పునరావృతం చేయడం కూడా వేగంగా మరియు సులభంగా ఉంటుంది.",Ct,me,wl="ఈ ప్రక్రియ సున్నా నుండి శిక్షణ ఇవ్వడం కంటే మెరుగైన ఫలితాలను సాధిస్తుంది (మీరు చాలా డేటాను కలిగి ఉంటే తప్ప), అందుకే మీరు ఎల్లప్పుడూ ఒక ప్రీ-ట్రైన్డ్ మోడల్ను ఉపయోగించుకోవడానికి ప్రయత్నించాలి — మీ చేతిలో ఉన్న పనికి వీలైనంత దగ్గరగా ఉన్న దాన్ని — మరియు దానిని ఫైన్-ట్యూన్ చేయాలి.",_t,fe,kt,oe,Pl="ఈ విభాగంలో, మనం Transformer మోడల్ యొక్క సాధారణ ఆర్కిటెక్చర్ను పరిశీలిద్దాం. మీకు కొన్ని భావనలు అర్థం కాకపోయినా చింతించకండి; ప్రతి భాగాన్ని కవర్ చేసే వివరణాత్మక విభాగాలు తరువాత ఉన్నాయి.",Lt,pe,bt,ue,yl="ఈ మోడల్ ప్రధానంగా రెండు బ్లాక్లతో కూడి ఉంటుంది:",Mt,ge,jl="<li><strong>ఎన్కోడర్ (ఎడమవైపు)</strong>: ఎన్కోడర్ ఒక ఇన్పుట్ను స్వీకరించి దాని యొక్క ప్రాతినిధ్యాన్ని (దాని ఫీచర్స్) నిర్మిస్తుంది. అంటే ఈ మోడల్ ఇన్పుట్ నుండి అవగాహనను పొందడానికి ఆప్టిమైజ్ చేయబడింది.</li> <li><strong>డీకోడర్ (కుడివైపు)</strong>: డీకోడర్, ఎన్కోడర్ యొక్క ప్రాతినిధ్యాన్ని (ఫీచర్స్) మరియు ఇతర ఇన్పుట్లను ఉపయోగించి ఒక లక్ష్య సీక్వెన్స్ను ఉత్పత్తి చేస్తుంది. అంటే ఈ మోడల్ అవుట్పుట్లను ఉత్పత్తి చేయడానికి ఆప్టిమైజ్ చేయబడింది.</li>",Ht,H,El='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks.svg" alt="Architecture of a Transformers models"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks-dark.svg" alt="Architecture of a Transformers models"/>',wt,ce,Bl="ఈ భాగాలలో ప్రతి ఒక్కటి పనిని బట్టి స్వతంత్రంగా ఉపయోగించవచ్చు:",Pt,ve,Gl="<li><strong>ఎన్కోడర్-మాత్రమే మోడల్స్</strong>: వాక్య వర్గీకరణ మరియు పేరుగల ఎంటిటీ గుర్తింపు వంటి ఇన్పుట్ అవగాహన అవసరమయ్యే పనులకు మంచివి.</li> <li><strong>డీకోడర్-మాత్రమే మోడల్స్</strong>: టెక్స్ట్ జనరేషన్ వంటి ఉత్పాదక పనులకు మంచివి.</li> <li><strong>ఎన్కోడర్-డీకోడర్ మోడల్స్</strong> లేదా <strong>సీక్వెన్స్-టు-సీక్వెన్స్ మోడల్స్</strong>: అనువాదం లేదా సారాంశీకరణ వంటి ఇన్పుట్ అవసరమయ్యే ఉత్పాదక పనులకు మంచివి.</li>",yt,he,Il="మనం ఈ ఆర్కిటెక్చర్లను తరువాత విభాగాలలో స్వతంత్రంగా పరిశీలిస్తాము.",jt,de,Et,xe,ql='Transformer మోడల్స్ యొక్క ఒక ముఖ్య లక్షణం ఏమిటంటే, అవి <em>అటెన్షన్ లేయర్లు</em> అనే ప్రత్యేక లేయర్లతో నిర్మించబడ్డాయి. నిజానికి, Transformer ఆర్కిటెక్చర్ను పరిచయం చేసిన పేపర్ శీర్షిక <a href="https://arxiv.org/abs/1706.03762" rel="nofollow">“Attention Is All You Need”</a>! మనం కోర్సులో తరువాత అటెన్షన్ లేయర్ల వివరాలను అన్వేషిస్తాము; ప్రస్తుతానికి, మీరు తెలుసుకోవలసినది ఏమిటంటే, ఈ లేయర్, మీరు పంపిన వాక్యంలోని ప్రతి పదం యొక్క ప్రాతినిధ్యంతో వ్యవహరించేటప్పుడు, ఆ వాక్యంలోని కొన్ని నిర్దిష్ట పదాలపై ప్రత్యేక శ్రద్ధ పెట్టమని మోడల్కు చెబుతుంది (మరియు ఇతరులను ఎక్కువ లేదా తక్కువ విస్మరించమని).',Bt,Te,zl="దీనిని సందర్భంలో ఉంచాలంటే, ఇంగ్లీష్ నుండి ఫ్రెంచ్కు టెక్స్ట్ను అనువదించే పనిని పరిగణించండి. “You like this course” అనే ఇన్పుట్ ఇచ్చినప్పుడు, ఒక అనువాద మోడల్ “like” అనే పదం యొక్క సరైన అనువాదాన్ని పొందడానికి ప్రక్కనే ఉన్న “You” అనే పదంపై కూడా శ్రద్ధ పెట్టాలి, ఎందుకంటే ఫ్రెంచ్లో “like” అనే క్రియ సబ్జెక్ట్ను బట్టి విభిన్నంగా సంయోగం చేయబడుతుంది. అయితే, వాక్యంలోని మిగిలిన భాగం ఆ పదం యొక్క అనువాదానికి ఉపయోగపడదు. అదే విధంగా, “this” ను అనువదించేటప్పుడు మోడల్ “course” అనే పదంపై కూడా శ్రద్ధ పెట్టాలి, ఎందుకంటే దానికి సంబంధించిన నామవాచకం పుంలింగమా లేదా స్త్రీలింగమా అనే దానిపై ఆధారపడి “this” విభిన్నంగా అనువదించబడుతుంది. మళ్లీ, వాక్యంలోని ఇతర పదాలు “course” యొక్క అనువాదానికి పట్టింపు లేదు. మరింత సంక్లిష్టమైన వాక్యాలతో (మరియు మరింత సంక్లిష్టమైన వ్యాకరణ నియమాలతో), ప్రతి పదాన్ని సరిగ్గా అనువదించడానికి మోడల్ వాక్యంలో ఇంకా దూరంగా కనిపించే పదాలపై ప్రత్యేక శ్రద్ధ పెట్టాల్సి ఉంటుంది.",Gt,$e,Al="సహజ భాషతో సంబంధం ఉన్న ఏ పనికైనా ఇదే భావన వర్తిస్తుంది: ఒక పదానికి దానంతట అదే ఒక అర్థం ఉంటుంది, కానీ ఆ అర్థం సందర్భం ద్వారా తీవ్రంగా ప్రభావితమవుతుంది, ఇది అధ్యయనం చేయబడుతున్న పదం ముందు లేదా తరువాత ఉన్న ఏ ఇతర పదం (లేదా పదాలు) అయినా కావచ్చు.",It,Ce,Dl="ఇప్పుడు మీకు అటెన్షన్ లేయర్ల గురించి ఒక ఆలోచన వచ్చింది కాబట్టి, Transformer ఆర్కిటెక్చర్ను మరింత నిశితంగా పరిశీలిద్దాం.",qt,_e,zt,ke,Vl="Transformer ఆర్కిటెక్చర్ వాస్తవానికి అనువాదం కోసం రూపొందించబడింది. శిక్షణ సమయంలో, ఎన్కోడర్ ఒక నిర్దిష్ట భాషలో ఇన్పుట్లను (వాక్యాలను) స్వీకరిస్తుంది, అయితే డీకోడర్ అవే వాక్యాలను కావలసిన లక్ష్య భాషలో స్వీకరిస్తుంది. ఎన్కోడర్లో, అటెన్షన్ లేయర్లు ఒక వాక్యంలోని అన్ని పదాలను ఉపయోగించగలవు (ఎందుకంటే, మనం ఇప్పుడు చూసినట్లుగా, ఒక నిర్దిష్ట పదం యొక్క అనువాదం వాక్యంలోని దాని తరువాత మరియు ముందు ఉన్న వాటిపై ఆధారపడి ఉండవచ్చు). అయితే, డీకోడర్ వరుసగా పనిచేస్తుంది మరియు అది ఇప్పటికే అనువదించిన వాక్యంలోని పదాలపై మాత్రమే శ్రద్ధ పెట్టగలదు (అందుకే, ప్రస్తుతం ఉత్పత్తి చేయబడుతున్న పదం ముందు ఉన్న పదాలు మాత్రమే). ఉదాహరణకు, మనం అనువదించబడిన లక్ష్యం యొక్క మొదటి మూడు పదాలను అంచనా వేసినప్పుడు, వాటిని డీకోడర్కు ఇస్తాము, అది తరువాత నాల్గవ పదాన్ని అంచనా వేయడానికి ఎన్కోడర్ యొక్క అన్ని ఇన్పుట్లను ఉపయోగిస్తుంది.",At,Le,Rl="శిక్షణ సమయంలో వేగాన్ని పెంచడానికి (మోడల్కు లక్ష్య వాక్యాలకు యాక్సెస్ ఉన్నప్పుడు), డీకోడర్కు మొత్తం లక్ష్యం ఇవ్వబడుతుంది, కానీ భవిష్యత్తు పదాలను ఉపయోగించడానికి అనుమతించబడదు (స్థానం 2 వద్ద పదాన్ని అంచనా వేయడానికి ప్రయత్నిస్తున్నప్పుడు స్థానం 2 వద్ద పదానికి యాక్సెస్ ఉంటే, సమస్య చాలా కష్టంగా ఉండదు!). ఉదాహరణకు, నాల్గవ పదాన్ని అంచనా వేయడానికి ప్రయత్నిస్తున్నప్పుడు, అటెన్షన్ లేయర్ కేవలం 1 నుండి 3 వరకు ఉన్న స్థానాలలోని పదాలకు మాత్రమే యాక్సెస్ కలిగి ఉంటుంది.",Dt,be,Ul="అసలు Transformer ఆర్కిటెక్చర్ ఇలా ఉండేది, ఎడమవైపు ఎన్కోడర్ మరియు కుడివైపు డీకోడర్తో:",Vt,w,Nl='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg" alt="Architecture of a Transformers models"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers-dark.svg" alt="Architecture of a Transformers models"/>',Rt,Me,Sl="డీకోడర్ బ్లాక్లోని మొదటి అటెన్షన్ లేయర్ డీకోడర్కు అన్ని (గత) ఇన్పుట్లపై శ్రద్ధ చూపుతుంది, కానీ రెండవ అటెన్షన్ లేయర్ ఎన్కోడర్ యొక్క అవుట్పుట్ను ఉపయోగిస్తుంది. అందువల్ల ఇది ప్రస్తుత పదాన్ని ఉత్తమంగా అంచనా వేయడానికి మొత్తం ఇన్పుట్ వాక్యాన్ని యాక్సెస్ చేయగలదు. విభిన్న భాషలు పదాలను విభిన్న క్రమాలలో ఉంచే వ్యాకరణ నియమాలను కలిగి ఉండవచ్చు కాబట్టి లేదా వాక్యంలో తరువాత అందించిన కొన్ని సందర్భాలు ఒక నిర్దిష్ట పదం యొక్క ఉత్తమ అనువాదాన్ని నిర్ధారించడానికి సహాయకరంగా ఉండవచ్చు కాబట్టి ఇది చాలా ఉపయోగకరంగా ఉంటుంది.",Ut,He,Yl="<em>attention mask</em> ను ఎన్కోడర్/డీకోడర్లో కూడా ఉపయోగించవచ్చు, మోడల్ కొన్ని ప్రత్యేక పదాలపై శ్రద్ధ పెట్టకుండా నిరోధించడానికి — ఉదాహరణకు, వాక్యాలను బ్యాచింగ్ చేసేటప్పుడు అన్ని ఇన్పుట్లను ఒకే పొడవుకు తీసుకురావడానికి ఉపయోగించే ప్రత్యేక ప్యాడింగ్ పదం.",Nt,we,St,Pe,Fl="ఈ కోర్సులో మనం Transformer మోడల్స్లోకి లోతుగా వెళ్తున్నప్పుడు, మీరు <em>architectures</em> మరియు <em>checkpoints</em> అలాగే <em>models</em> అనే ప్రస్తావనలు చూస్తారు. ఈ పదాలకు అన్నింటికీ కొద్దిగా భిన్నమైన అర్థాలు ఉన్నాయి:",Yt,ye,Ol="<li><strong><em>architectures</em></strong>: ఇది మోడల్ యొక్క అస్థిపంజరం — ప్రతి లేయర్ యొక్క నిర్వచనం మరియు మోడల్ లోపల జరిగే ప్రతి ఆపరేషన్.</li> <li><strong><em>checkpoints</em></strong>: ఇవి ఒక నిర్దిష్ట ఆర్కిటెక్చర్లో లోడ్ చేయబడే వెయిట్స్.</li> <li><strong><em>models</em></strong>: ఇది ఒక గొడుగు పదం, “ఆర్కిటెక్చర్” లేదా “చెక్పాయింట్” అంత కచ్చితమైనది కాదు: ఇది రెండు అర్థాలను సూచించవచ్చు. అస్పష్టతను తగ్గించడానికి ఈ కోర్సు ముఖ్యం అయినప్పుడు <em>ఆర్కిటెక్చర్</em> లేదా <em>చెక్పాయింట్</em> అని నిర్దిష్టంగా చెబుతుంది.</li>",Ft,je,Ql="ఉదాహరణకు, BERT ఒక ఆర్కిటెక్చర్ అయితే, <code>bert-base-cased</code> అనేది BERT యొక్క మొదటి విడుదల కోసం Google బృందం శిక్షణ ఇచ్చిన వెయిట్స్ యొక్క సెట్, ఇది ఒక చెక్పాయింట్. అయితే, ఒకరు “BERT మోడల్” మరియు ”<code>bert-base-cased</code> మోడల్” అని చెప్పవచ్చు.",Ot,Ee,Qt,Ge,Wt;return y=new x({props:{title:"Transformerలు ఎలా పనిచేస్తాయి?",local:"how-do-transformers-work",headingTag:"h1"}}),j=new an({props:{chapter:1,classNames:"absolute z-10 right-0 top-0"}}),T=new sn({props:{warning:!0,$$slots:{default:[mn]},$$scope:{ctx:Ie}}}),B=new x({props:{title:"Transformerల చరిత్ర గురించి కొంచెం",local:"a-bit-of-transformer-history",headingTag:"h2"}}),V=new x({props:{title:"Transformer లు భాషా నమూనాలు",local:"transformers-are-language-models",headingTag:"h2"}}),F=new x({props:{title:"Transformerలు పెద్ద నమూనాలు",local:"transformers-are-big-models",headingTag:"h2"}}),W=new Xt({props:{id:"ftWlj4FBHTg"}}),ee=new x({props:{title:"ట్రాన్స్ఫర్ లెర్నింగ్",local:"transfer-learning",headingTag:"h2"}}),te=new Xt({props:{id:"BqqfQnyjmgg"}}),fe=new x({props:{title:"సాధారణ Transformer ఆర్కిటెక్చర్",local:"general-transformer-architecture",headingTag:"h2"}}),pe=new Xt({props:{id:"H39Z_720T5s"}}),de=new x({props:{title:"అటెన్షన్ లేయర్లు",local:"attention-layers",headingTag:"h2"}}),_e=new x({props:{title:"అసలు ఆర్కిటెక్చర్",local:"the-original-architecture",headingTag:"h2"}}),we=new x({props:{title:"ఆర్కిటెక్చర్లు vs. చెక్పాయింట్లు",local:"architecture-vs-checkpoints",headingTag:"h2"}}),Ee=new rn({props:{source:"https://github.com/huggingface/course/blob/main/chapters/te/chapter1/4.mdx"}}),{c(){f=a("meta"),P=s(),h=a("p"),Be=s(),o(y.$$.fragment),qe=s(),o(j.$$.fragment),ze=s(),E=a("p"),E.textContent=Zt,Ae=s(),o(T.$$.fragment),De=s(),o(B.$$.fragment),Ve=s(),G=a("p"),G.textContent=Jt,Re=s(),$=a("div"),$.innerHTML=Kt,Ue=s(),I=a("p"),I.innerHTML=el,Ne=s(),q=a("ul"),q.innerHTML=tl,Se=s(),z=a("p"),z.textContent=ll,Ye=s(),A=a("ul"),A.innerHTML=nl,Fe=s(),D=a("p"),D.textContent=sl,Oe=s(),o(V.$$.fragment),Qe=s(),R=a("p"),R.innerHTML=il,We=s(),U=a("p"),U.textContent=al,Xe=s(),N=a("p"),N.innerHTML=rl,Ze=s(),S=a("p"),S.innerHTML=ml,Je=s(),C=a("div"),C.innerHTML=fl,Ke=s(),Y=a("p"),Y.innerHTML=ol,et=s(),_=a("div"),_.innerHTML=pl,tt=s(),o(F.$$.fragment),lt=s(),O=a("p"),O.textContent=ul,nt=s(),k=a("div"),k.innerHTML=gl,st=s(),Q=a("p"),Q.textContent=cl,it=s(),L=a("div"),L.innerHTML=vl,at=s(),o(W.$$.fragment),rt=s(),X=a("p"),X.textContent=hl,mt=s(),Z=a("p"),Z.textContent=dl,ft=s(),J=a("p"),J.textContent=xl,ot=s(),K=a("p"),K.innerHTML=Tl,pt=s(),o(ee.$$.fragment),ut=s(),o(te.$$.fragment),gt=s(),le=a("p"),le.innerHTML=$l,ct=s(),b=a("div"),b.innerHTML=Cl,vt=s(),ne=a("p"),ne.textContent=_l,ht=s(),se=a("p"),se.innerHTML=kl,dt=s(),ie=a("ul"),ie.innerHTML=Ll,xt=s(),ae=a("p"),ae.innerHTML=bl,Tt=s(),M=a("div"),M.innerHTML=Ml,$t=s(),re=a("p"),re.textContent=Hl,Ct=s(),me=a("p"),me.textContent=wl,_t=s(),o(fe.$$.fragment),kt=s(),oe=a("p"),oe.textContent=Pl,Lt=s(),o(pe.$$.fragment),bt=s(),ue=a("p"),ue.textContent=yl,Mt=s(),ge=a("ul"),ge.innerHTML=jl,Ht=s(),H=a("div"),H.innerHTML=El,wt=s(),ce=a("p"),ce.textContent=Bl,Pt=s(),ve=a("ul"),ve.innerHTML=Gl,yt=s(),he=a("p"),he.textContent=Il,jt=s(),o(de.$$.fragment),Et=s(),xe=a("p"),xe.innerHTML=ql,Bt=s(),Te=a("p"),Te.textContent=zl,Gt=s(),$e=a("p"),$e.textContent=Al,It=s(),Ce=a("p"),Ce.textContent=Dl,qt=s(),o(_e.$$.fragment),zt=s(),ke=a("p"),ke.textContent=Vl,At=s(),Le=a("p"),Le.textContent=Rl,Dt=s(),be=a("p"),be.textContent=Ul,Vt=s(),w=a("div"),w.innerHTML=Nl,Rt=s(),Me=a("p"),Me.textContent=Sl,Ut=s(),He=a("p"),He.innerHTML=Yl,Nt=s(),o(we.$$.fragment),St=s(),Pe=a("p"),Pe.innerHTML=Fl,Yt=s(),ye=a("ul"),ye.innerHTML=Ol,Ft=s(),je=a("p"),je.innerHTML=Ql,Ot=s(),o(Ee.$$.fragment),Qt=s(),Ge=a("p"),this.h()},l(e){const t=ln("svelte-u9bgzb",document.head);f=r(t,"META",{name:!0,content:!0}),t.forEach(l),P=i(e),h=r(e,"P",{}),Xl(h).forEach(l),Be=i(e),p(y.$$.fragment,e),qe=i(e),p(j.$$.fragment,e),ze=i(e),E=r(e,"P",{"data-svelte-h":!0}),m(E)!=="svelte-i4yj87"&&(E.textContent=Zt),Ae=i(e),p(T.$$.fragment,e),De=i(e),p(B.$$.fragment,e),Ve=i(e),G=r(e,"P",{"data-svelte-h":!0}),m(G)!=="svelte-pw7wtv"&&(G.textContent=Jt),Re=i(e),$=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m($)!=="svelte-u8zu2n"&&($.innerHTML=Kt),Ue=i(e),I=r(e,"P",{"data-svelte-h":!0}),m(I)!=="svelte-10ix7q5"&&(I.innerHTML=el),Ne=i(e),q=r(e,"UL",{"data-svelte-h":!0}),m(q)!=="svelte-14p4co5"&&(q.innerHTML=tl),Se=i(e),z=r(e,"P",{"data-svelte-h":!0}),m(z)!=="svelte-68f81u"&&(z.textContent=ll),Ye=i(e),A=r(e,"UL",{"data-svelte-h":!0}),m(A)!=="svelte-1xpxc8o"&&(A.innerHTML=nl),Fe=i(e),D=r(e,"P",{"data-svelte-h":!0}),m(D)!=="svelte-lcckkk"&&(D.textContent=sl),Oe=i(e),p(V.$$.fragment,e),Qe=i(e),R=r(e,"P",{"data-svelte-h":!0}),m(R)!=="svelte-3re3ef"&&(R.innerHTML=il),We=i(e),U=r(e,"P",{"data-svelte-h":!0}),m(U)!=="svelte-1f9gog3"&&(U.textContent=al),Xe=i(e),N=r(e,"P",{"data-svelte-h":!0}),m(N)!=="svelte-2wl5jy"&&(N.innerHTML=rl),Ze=i(e),S=r(e,"P",{"data-svelte-h":!0}),m(S)!=="svelte-1g8z5lr"&&(S.innerHTML=ml),Je=i(e),C=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(C)!=="svelte-lvew4p"&&(C.innerHTML=fl),Ke=i(e),Y=r(e,"P",{"data-svelte-h":!0}),m(Y)!=="svelte-14cs80h"&&(Y.innerHTML=ol),et=i(e),_=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(_)!=="svelte-1r8x2dd"&&(_.innerHTML=pl),tt=i(e),p(F.$$.fragment,e),lt=i(e),O=r(e,"P",{"data-svelte-h":!0}),m(O)!=="svelte-1a246mg"&&(O.textContent=ul),nt=i(e),k=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(k)!=="svelte-5uz5bp"&&(k.innerHTML=gl),st=i(e),Q=r(e,"P",{"data-svelte-h":!0}),m(Q)!=="svelte-1xa2ac0"&&(Q.textContent=cl),it=i(e),L=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(L)!=="svelte-1a8euan"&&(L.innerHTML=vl),at=i(e),p(W.$$.fragment,e),rt=i(e),X=r(e,"P",{"data-svelte-h":!0}),m(X)!=="svelte-ivj9ra"&&(X.textContent=hl),mt=i(e),Z=r(e,"P",{"data-svelte-h":!0}),m(Z)!=="svelte-5s1tcg"&&(Z.textContent=dl),ft=i(e),J=r(e,"P",{"data-svelte-h":!0}),m(J)!=="svelte-2itioh"&&(J.textContent=xl),ot=i(e),K=r(e,"P",{"data-svelte-h":!0}),m(K)!=="svelte-16lv93l"&&(K.innerHTML=Tl),pt=i(e),p(ee.$$.fragment,e),ut=i(e),p(te.$$.fragment,e),gt=i(e),le=r(e,"P",{"data-svelte-h":!0}),m(le)!=="svelte-h078fl"&&(le.innerHTML=$l),ct=i(e),b=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(b)!=="svelte-152v0kx"&&(b.innerHTML=Cl),vt=i(e),ne=r(e,"P",{"data-svelte-h":!0}),m(ne)!=="svelte-ycgptb"&&(ne.textContent=_l),ht=i(e),se=r(e,"P",{"data-svelte-h":!0}),m(se)!=="svelte-1uhsdq0"&&(se.innerHTML=kl),dt=i(e),ie=r(e,"UL",{"data-svelte-h":!0}),m(ie)!=="svelte-nx5bvq"&&(ie.innerHTML=Ll),xt=i(e),ae=r(e,"P",{"data-svelte-h":!0}),m(ae)!=="svelte-jc4gtz"&&(ae.innerHTML=bl),Tt=i(e),M=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(M)!=="svelte-1ngyuh1"&&(M.innerHTML=Ml),$t=i(e),re=r(e,"P",{"data-svelte-h":!0}),m(re)!=="svelte-1mzc4jj"&&(re.textContent=Hl),Ct=i(e),me=r(e,"P",{"data-svelte-h":!0}),m(me)!=="svelte-ir4f9y"&&(me.textContent=wl),_t=i(e),p(fe.$$.fragment,e),kt=i(e),oe=r(e,"P",{"data-svelte-h":!0}),m(oe)!=="svelte-obe3f8"&&(oe.textContent=Pl),Lt=i(e),p(pe.$$.fragment,e),bt=i(e),ue=r(e,"P",{"data-svelte-h":!0}),m(ue)!=="svelte-15vipuj"&&(ue.textContent=yl),Mt=i(e),ge=r(e,"UL",{"data-svelte-h":!0}),m(ge)!=="svelte-5x2746"&&(ge.innerHTML=jl),Ht=i(e),H=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(H)!=="svelte-l70qs1"&&(H.innerHTML=El),wt=i(e),ce=r(e,"P",{"data-svelte-h":!0}),m(ce)!=="svelte-4a79dm"&&(ce.textContent=Bl),Pt=i(e),ve=r(e,"UL",{"data-svelte-h":!0}),m(ve)!=="svelte-62vcze"&&(ve.innerHTML=Gl),yt=i(e),he=r(e,"P",{"data-svelte-h":!0}),m(he)!=="svelte-efsbgl"&&(he.textContent=Il),jt=i(e),p(de.$$.fragment,e),Et=i(e),xe=r(e,"P",{"data-svelte-h":!0}),m(xe)!=="svelte-13e8sm4"&&(xe.innerHTML=ql),Bt=i(e),Te=r(e,"P",{"data-svelte-h":!0}),m(Te)!=="svelte-hzh8vt"&&(Te.textContent=zl),Gt=i(e),$e=r(e,"P",{"data-svelte-h":!0}),m($e)!=="svelte-dsl45e"&&($e.textContent=Al),It=i(e),Ce=r(e,"P",{"data-svelte-h":!0}),m(Ce)!=="svelte-yqpgfi"&&(Ce.textContent=Dl),qt=i(e),p(_e.$$.fragment,e),zt=i(e),ke=r(e,"P",{"data-svelte-h":!0}),m(ke)!=="svelte-1onm4ht"&&(ke.textContent=Vl),At=i(e),Le=r(e,"P",{"data-svelte-h":!0}),m(Le)!=="svelte-7sw7nj"&&(Le.textContent=Rl),Dt=i(e),be=r(e,"P",{"data-svelte-h":!0}),m(be)!=="svelte-rkwi8s"&&(be.textContent=Ul),Vt=i(e),w=r(e,"DIV",{class:!0,"data-svelte-h":!0}),m(w)!=="svelte-14wvpqf"&&(w.innerHTML=Nl),Rt=i(e),Me=r(e,"P",{"data-svelte-h":!0}),m(Me)!=="svelte-85ki2o"&&(Me.textContent=Sl),Ut=i(e),He=r(e,"P",{"data-svelte-h":!0}),m(He)!=="svelte-1kkuxnf"&&(He.innerHTML=Yl),Nt=i(e),p(we.$$.fragment,e),St=i(e),Pe=r(e,"P",{"data-svelte-h":!0}),m(Pe)!=="svelte-1c15gfz"&&(Pe.innerHTML=Fl),Yt=i(e),ye=r(e,"UL",{"data-svelte-h":!0}),m(ye)!=="svelte-1e5htk8"&&(ye.innerHTML=Ol),Ft=i(e),je=r(e,"P",{"data-svelte-h":!0}),m(je)!=="svelte-aw41sw"&&(je.innerHTML=Ql),Ot=i(e),p(Ee.$$.fragment,e),Qt=i(e),Ge=r(e,"P",{}),Xl(Ge).forEach(l),this.h()},h(){d(f,"name","hf:doc:metadata"),d(f,"content",on),d($,"class","flex justify-center"),d(C,"class","flex justify-center"),d(_,"class","flex justify-center"),d(k,"class","flex justify-center"),d(L,"class","flex justify-center"),d(b,"class","flex justify-center"),d(M,"class","flex justify-center"),d(H,"class","flex justify-center"),d(w,"class","flex justify-center")},m(e,t){nn(document.head,f),n(e,P,t),n(e,h,t),n(e,Be,t),u(y,e,t),n(e,qe,t),u(j,e,t),n(e,ze,t),n(e,E,t),n(e,Ae,t),u(T,e,t),n(e,De,t),u(B,e,t),n(e,Ve,t),n(e,G,t),n(e,Re,t),n(e,$,t),n(e,Ue,t),n(e,I,t),n(e,Ne,t),n(e,q,t),n(e,Se,t),n(e,z,t),n(e,Ye,t),n(e,A,t),n(e,Fe,t),n(e,D,t),n(e,Oe,t),u(V,e,t),n(e,Qe,t),n(e,R,t),n(e,We,t),n(e,U,t),n(e,Xe,t),n(e,N,t),n(e,Ze,t),n(e,S,t),n(e,Je,t),n(e,C,t),n(e,Ke,t),n(e,Y,t),n(e,et,t),n(e,_,t),n(e,tt,t),u(F,e,t),n(e,lt,t),n(e,O,t),n(e,nt,t),n(e,k,t),n(e,st,t),n(e,Q,t),n(e,it,t),n(e,L,t),n(e,at,t),u(W,e,t),n(e,rt,t),n(e,X,t),n(e,mt,t),n(e,Z,t),n(e,ft,t),n(e,J,t),n(e,ot,t),n(e,K,t),n(e,pt,t),u(ee,e,t),n(e,ut,t),u(te,e,t),n(e,gt,t),n(e,le,t),n(e,ct,t),n(e,b,t),n(e,vt,t),n(e,ne,t),n(e,ht,t),n(e,se,t),n(e,dt,t),n(e,ie,t),n(e,xt,t),n(e,ae,t),n(e,Tt,t),n(e,M,t),n(e,$t,t),n(e,re,t),n(e,Ct,t),n(e,me,t),n(e,_t,t),u(fe,e,t),n(e,kt,t),n(e,oe,t),n(e,Lt,t),u(pe,e,t),n(e,bt,t),n(e,ue,t),n(e,Mt,t),n(e,ge,t),n(e,Ht,t),n(e,H,t),n(e,wt,t),n(e,ce,t),n(e,Pt,t),n(e,ve,t),n(e,yt,t),n(e,he,t),n(e,jt,t),u(de,e,t),n(e,Et,t),n(e,xe,t),n(e,Bt,t),n(e,Te,t),n(e,Gt,t),n(e,$e,t),n(e,It,t),n(e,Ce,t),n(e,qt,t),u(_e,e,t),n(e,zt,t),n(e,ke,t),n(e,At,t),n(e,Le,t),n(e,Dt,t),n(e,be,t),n(e,Vt,t),n(e,w,t),n(e,Rt,t),n(e,Me,t),n(e,Ut,t),n(e,He,t),n(e,Nt,t),u(we,e,t),n(e,St,t),n(e,Pe,t),n(e,Yt,t),n(e,ye,t),n(e,Ft,t),n(e,je,t),n(e,Ot,t),u(Ee,e,t),n(e,Qt,t),n(e,Ge,t),Wt=!0},p(e,[t]){const Wl={};t&2&&(Wl.$$scope={dirty:t,ctx:e}),T.$set(Wl)},i(e){Wt||(g(y.$$.fragment,e),g(j.$$.fragment,e),g(T.$$.fragment,e),g(B.$$.fragment,e),g(V.$$.fragment,e),g(F.$$.fragment,e),g(W.$$.fragment,e),g(ee.$$.fragment,e),g(te.$$.fragment,e),g(fe.$$.fragment,e),g(pe.$$.fragment,e),g(de.$$.fragment,e),g(_e.$$.fragment,e),g(we.$$.fragment,e),g(Ee.$$.fragment,e),Wt=!0)},o(e){c(y.$$.fragment,e),c(j.$$.fragment,e),c(T.$$.fragment,e),c(B.$$.fragment,e),c(V.$$.fragment,e),c(F.$$.fragment,e),c(W.$$.fragment,e),c(ee.$$.fragment,e),c(te.$$.fragment,e),c(fe.$$.fragment,e),c(pe.$$.fragment,e),c(de.$$.fragment,e),c(_e.$$.fragment,e),c(we.$$.fragment,e),c(Ee.$$.fragment,e),Wt=!1},d(e){e&&(l(P),l(h),l(Be),l(qe),l(ze),l(E),l(Ae),l(De),l(Ve),l(G),l(Re),l($),l(Ue),l(I),l(Ne),l(q),l(Se),l(z),l(Ye),l(A),l(Fe),l(D),l(Oe),l(Qe),l(R),l(We),l(U),l(Xe),l(N),l(Ze),l(S),l(Je),l(C),l(Ke),l(Y),l(et),l(_),l(tt),l(lt),l(O),l(nt),l(k),l(st),l(Q),l(it),l(L),l(at),l(rt),l(X),l(mt),l(Z),l(ft),l(J),l(ot),l(K),l(pt),l(ut),l(gt),l(le),l(ct),l(b),l(vt),l(ne),l(ht),l(se),l(dt),l(ie),l(xt),l(ae),l(Tt),l(M),l($t),l(re),l(Ct),l(me),l(_t),l(kt),l(oe),l(Lt),l(bt),l(ue),l(Mt),l(ge),l(Ht),l(H),l(wt),l(ce),l(Pt),l(ve),l(yt),l(he),l(jt),l(Et),l(xe),l(Bt),l(Te),l(Gt),l($e),l(It),l(Ce),l(qt),l(zt),l(ke),l(At),l(Le),l(Dt),l(be),l(Vt),l(w),l(Rt),l(Me),l(Ut),l(He),l(Nt),l(St),l(Pe),l(Yt),l(ye),l(Ft),l(je),l(Ot),l(Qt),l(Ge)),l(f),v(y,e),v(j,e),v(T,e),v(B,e),v(V,e),v(F,e),v(W,e),v(ee,e),v(te,e),v(fe,e),v(pe,e),v(de,e),v(_e,e),v(we,e),v(Ee,e)}}}const on='{"title":"Transformerలు ఎలా పనిచేస్తాయి?","local":"how-do-transformers-work","sections":[{"title":"Transformerల చరిత్ర గురించి కొంచెం","local":"a-bit-of-transformer-history","sections":[],"depth":2},{"title":"Transformer లు భాషా నమూనాలు","local":"transformers-are-language-models","sections":[],"depth":2},{"title":"Transformerలు పెద్ద నమూనాలు","local":"transformers-are-big-models","sections":[],"depth":2},{"title":"ట్రాన్స్ఫర్ లెర్నింగ్","local":"transfer-learning","sections":[],"depth":2},{"title":"సాధారణ Transformer ఆర్కిటెక్చర్","local":"general-transformer-architecture","sections":[],"depth":2},{"title":"అటెన్షన్ లేయర్లు","local":"attention-layers","sections":[],"depth":2},{"title":"అసలు ఆర్కిటెక్చర్","local":"the-original-architecture","sections":[],"depth":2},{"title":"ఆర్కిటెక్చర్లు vs. చెక్పాయింట్లు","local":"architecture-vs-checkpoints","sections":[],"depth":2}],"depth":1}';function pn(Ie){return Jl(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class dn extends en{constructor(f){super(),tn(this,f,pn,fn,Zl,{})}}export{dn as component}; | |
Xet Storage Details
- Size:
- 54.8 kB
- Xet hash:
- 96b57b71c9f1bc49c9719b13ffd5671cd2a10542e8effb19e6936f53c5497537
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.