Buckets:

rtrm's picture
download
raw
55.9 kB
import{s as Si,f as kl,o as Gi,n as El}from"../chunks/scheduler.1d51f4c0.js";import{S as Ki,i as Bi,g as s,s as n,r as m,A as Qi,h as f,f as l,c as p,j as Jt,u,x as $,k as o,l as zl,y as Ni,a as i,v as r,d as v,t as a,w as C}from"../chunks/index.85d39492.js";import{Y as Yi,T as ql}from"../chunks/Youtube.4f1624ff.js";import{C as Di}from"../chunks/CourseFloatingBanner.5978eac6.js";import{H as L,E as Wi}from"../chunks/getInferenceSnippets.3734ed7d.js";function Xi(w){let x,_="సంక్షిప్తంగా, LLMలు పొందికగా మరియు సందర్భానుసారంగా ఉండే టెక్స్ట్‌ను ఉత్పత్తి చేయగలగడానికి అటెన్షన్ మెకానిజం కీలకం. ఇది ఆధునిక LLMలను పాత తరం భాషా నమూనాల నుండి వేరుగా నిలుపుతుంది.";return{c(){x=s("p"),x.textContent=_},l(g){x=f(g,"P",{"data-svelte-h":!0}),$(x)!=="svelte-qy2o5v"&&(x.textContent=_)},m(g,M){i(g,x,M)},p:El,d(g){g&&l(x)}}}function Zi(w){let x,_="కాంటెక్స్ట్ లెంగ్త్ అనేది, స్పందనను ఉత్పత్తి చేసేటప్పుడు మోడల్ ఒకేసారి పరిగణించగల గరిష్ట టోకెన్‌ల సంఖ్య.";return{c(){x=s("p"),x.textContent=_},l(g){x=f(g,"P",{"data-svelte-h":!0}),$(x)!=="svelte-1w3u0ka"&&(x.textContent=_)},m(g,M){i(g,x,M)},p:El,d(g){g&&l(x)}}}function Ji(w){let x,_="ప్రాంప్ట్‌ను జాగ్రత్తగా రూపొందించడం వల్ల LLM జనరేషన్‌ను కావలసిన అవుట్‌పుట్ వైపు నడిపించడం సులభం అవుతుంది.";return{c(){x=s("p"),x.textContent=_},l(g){x=f(g,"P",{"data-svelte-h":!0}),$(x)!=="svelte-1lrpida"&&(x.textContent=_)},m(g,M){i(g,x,M)},p:El,d(g){g&&l(x)}}}function ci(w){let x,_,g,M,z,ct,q,te,E,ee,j,jl="ఇప్పటివరకు, మనం టెక్స్ట్ వర్గీకరణ లేదా సారాంశీకరణ వంటి వివిధ రకాల పనులకు సంబంధించి ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్‌ను అన్వేషించాము. అయితే, Large Language Models (LLMలు) ఎక్కువగా టెక్స్ట్ జనరేషన్ కోసం ఉపయోగించబడతాయి మరియు ఈ అధ్యాయంలో మనం దీనినే అన్వేషిస్తాము.",le,O,Ol="ఈ పేజీలో, మనం LLM ఇన్ఫరెన్స్ వెనుక ఉన్న ముఖ్యమైన భావనలను అన్వేషిస్తాము. ఈ మోడల్స్ టెక్స్ట్‌ను ఎలా ఉత్పత్తి చేస్తాయి మరియు ఇన్ఫరెన్స్ ప్రక్రియలో కీలకమైన అంశాలు ఏమిటో సమగ్ర అవగాహనను అందిస్తాము.",ie,A,ne,F,Al="ప్రాథమిక అంశాలతో ప్రారంభిద్దాం. ఇన్ఫరెన్స్ అనేది, శిక్షణ పొందిన LLMను ఉపయోగించి, ఇచ్చిన ఇన్‌పుట్ ప్రాంప్ట్ నుండి మానవ-సహజమైన టెక్స్ట్‌ను ఉత్పత్తి చేసే ప్రక్రియ. భాషా నమూనాలు తమ శిక్షణ నుండి పొందిన జ్ఞానాన్ని ఉపయోగించి, ఒకేసారి ఒక్కో పదాన్ని స్పందనలుగా రూపొందిస్తాయి. మోడల్, బిలియన్ల పారామితుల నుండి నేర్చుకున్న సంభావ్యతలను (probabilities) ఉపయోగించి, ఒక క్రమంలో తదుపరి టోకెన్‌ను అంచనా వేసి, ఉత్పత్తి చేస్తుంది. ఈ వరుస ఉత్పత్తి ప్రక్రియే LLMలను పొందికగా మరియు సందర్భోచితంగా ఉండే టెక్స్ట్‌ను రూపొందించడానికి అనుమతిస్తుంది.",pe,R,se,I,Fl="అటెన్షన్ మెకానిజం, LLMలకు సందర్భాన్ని అర్థం చేసుకుని, పొందికైన ప్రతిస్పందనలను ఉత్పత్తి చేసే సామర్థ్యాన్ని ఇస్తుంది. తదుపరి పదాన్ని అంచనా వేసేటప్పుడు, ఒక వాక్యంలోని ప్రతి పదానికి సమాన ప్రాధాన్యత ఉండదు - ఉదాహరణకు, “The capital of France is …” అనే వాక్యంలో, “France” మరియు “capital” అనే పదాలు తదుపరి పదం “Paris” అని నిర్ధారించడానికి చాలా ముఖ్యమైనవి. సంబంధిత సమాచారంపై దృష్టి పెట్టే ఈ సామర్థ్యాన్ని మనం అటెన్షన్ అని పిలుస్తాము.",fe,y,Rl,$e,U,Il="తదుపరి టోకెన్‌ను అంచనా వేయడానికి అత్యంత సంబంధిత పదాలను గుర్తించే ఈ ప్రక్రియ అద్భుతంగా ప్రభావవంతమైనదని నిరూపించబడింది. BERT మరియు GPT-2 కాలం నుండి LLMలకు శిక్షణ ఇచ్చే ప్రాథమిక సూత్రం — తదుపరి టోకెన్‌ను అంచనా వేయడం — సాధారణంగా స్థిరంగా ఉన్నప్పటికీ, న్యూరల్ నెట్‌వర్క్‌లను స్కేల్ చేయడంలో మరియు అటెన్షన్ మెకానిజంను తక్కువ ఖర్చుతో, సుదీర్ఘమైన సీక్వెన్స్‌ల కోసం పనిచేసేలా చేయడంలో గణనీయమైన పురోగతి సాధించబడింది.",xe,H,me,V,ue,S,Ul="ఇప్పుడు మనం అటెన్షన్ గురించి అర్థం చేసుకున్నాం కాబట్టి, ఒక LLM వాస్తవానికి ఎంత కాంటెక్స్ట్‌ను నిర్వహించగలదో అన్వేషిద్దాం. ఇది మనల్ని కాంటెక్స్ట్ లెంగ్త్, లేదా మోడల్ యొక్క ‘అటెన్షన్ స్పాన్’ వద్దకు తీసుకువస్తుంది.",re,G,Vl="కాంటెక్స్ట్ లెంగ్త్ అనేది LLM ఒకేసారి ప్రాసెస్ చేయగల గరిష్ట సంఖ్య టోకెన్‌లను (పదాలు లేదా పదాల భాగాలు) సూచిస్తుంది. దీనిని మోడల్ యొక్క వర్కింగ్ మెమరీ పరిమాణంగా భావించండి.",ve,K,Sl="ఈ సామర్థ్యాలు అనేక ఆచరణాత్మక కారకాల ద్వారా పరిమితం చేయబడ్డాయి:",ae,B,Gl="<li>మోడల్ యొక్క ఆర్కిటెక్చర్ మరియు పరిమాణం</li> <li>అందుబాటులో ఉన్న కంప్యూటేషనల్ వనరులు</li> <li>ఇన్‌పుట్ మరియు కావలసిన అవుట్‌పుట్ యొక్క సంక్లిష్టత</li>",Ce,Q,Kl="ఒక ఆదర్శ ప్రపంచంలో, మనం మోడల్‌కు అపరిమితమైన కాంటెక్స్ట్‌ను అందించవచ్చు, కానీ హార్డ్‌వేర్ పరిమితులు మరియు గణన ఖర్చులు దీనిని అసాధ్యం చేస్తాయి. అందుకే సామర్థ్యాన్ని మరియు సమర్థతను సమతుల్యం చేయడానికి వివిధ మోడల్స్ వివిధ కాంటెక్స్ట్ లెంగ్త్‌లతో రూపొందించబడ్డాయి.",ge,h,Le,N,oe,Y,Bl="మనం LLMలకు సమాచారాన్ని అందించినప్పుడు, LLM యొక్క జనరేషన్‌ను కావలసిన అవుట్‌పుట్ వైపు నడిపించే విధంగా మన ఇన్‌పుట్‌ను రూపొందిస్తాము. దీనిని ప్రాంప్టింగ్ అని అంటారు.",_e,D,Ql="LLMలు సమాచారాన్ని ఎలా ప్రాసెస్ చేస్తాయో అర్థం చేసుకోవడం, మెరుగైన ప్రాంప్ట్‌లను రూపొందించడంలో మనకు సహాయపడుతుంది. మోడల్ యొక్క ప్రాథమిక విధి ప్రతి ఇన్‌పుట్ టోకెన్ యొక్క ప్రాముఖ్యతను విశ్లేషించడం ద్వారా తదుపరి టోకెన్‌ను అంచనా వేయడం కాబట్టి, మీ ఇన్‌పుట్ సీక్వెన్స్ యొక్క పదజాలం చాలా కీలకమైనది.",de,k,Me,W,Te,X,Nl="ఇప్పుడు మనం ప్రాథమిక భాగాలను అర్థం చేసుకున్నాం కాబట్టి, LLMలు వాస్తవానికి టెక్స్ట్‌ను ఎలా ఉత్పత్తి చేస్తాయో లోతుగా చూద్దాం. ఈ ప్రక్రియను రెండు ప్రధాన దశలుగా విభజించవచ్చు: ప్రీఫిల్ (prefill) మరియు డీకోడ్ (decode). ఈ దశలు ఒక అసెంబ్లీ లైన్ లాగా కలిసి పనిచేస్తాయి, పొందికైన టెక్స్ట్‌ను ఉత్పత్తి చేయడంలో ప్రతి ఒక్కటి కీలక పాత్ర పోషిస్తుంది.",Pe,Z,be,J,Yl="ప్రీఫిల్ దశ వంటలో తయారీ దశ లాంటిది - ఇక్కడ అన్ని ప్రారంభ పదార్థాలు ప్రాసెస్ చేయబడి సిద్ధంగా ఉంటాయి. ఈ దశలో మూడు కీలక దశలు ఉంటాయి:",we,c,Dl="<li><strong>టోకనైజేషన్</strong>: ఇన్‌పుట్ టెక్స్ట్‌ను టోకెన్‌లుగా మార్చడం (వీటిని మోడల్ అర్థం చేసుకునే ప్రాథమిక బిల్డింగ్ బ్లాక్‌లుగా భావించండి)</li> <li><strong>ఎంబెడ్డింగ్ మార్పిడి</strong>: ఈ టోకెన్‌లను వాటి అర్థాన్ని సంగ్రహించే సంఖ్యా ప్రాతినిధ్యాలుగా మార్చడం</li> <li><strong>ప్రారంభ ప్రాసెసింగ్</strong>: కాంటెక్స్ట్ యొక్క గొప్ప అవగాహనను సృష్టించడానికి ఈ ఎంబెడ్డింగ్‌లను మోడల్ యొక్క న్యూరల్ నెట్‌వర్క్‌ల ద్వారా అమలు చేయడం</li>",ye,tt,Wl="ఈ దశ కంప్యూటేషనల్‌గా చాలా తీవ్రమైనది ఎందుకంటే ఇది అన్ని ఇన్‌పుట్ టోకెన్‌లను ఒకేసారి ప్రాసెస్ చేయాలి. ఒక ప్రతిస్పందన రాయడం ప్రారంభించే ముందు ఒక పూర్తి పేరా చదివి అర్థం చేసుకున్నట్లుగా దీనిని భావించండి.",He,et,Xl="కింది ఇంటరాక్టివ్ ప్లేగ్రౌండ్‌లో మీరు వివిధ టోకనైజర్‌లతో ప్రయోగాలు చేయవచ్చు:",he,T,Zl,ke,lt,ze,it,Jl="ప్రీఫిల్ దశ ఇన్‌పుట్‌ను ప్రాసెస్ చేసిన తర్వాత, మనం డీకోడ్ దశకు వెళ్తాము - ఇక్కడే అసలు టెక్స్ట్ జనరేషన్ జరుగుతుంది. మోడల్ ఒక ఆటోరిగ్రెసివ్ ప్రక్రియలో (ఇక్కడ ప్రతి కొత్త టోకెన్ మునుపటి అన్ని టోకెన్లపై ఆధారపడి ఉంటుంది) ఒకేసారి ఒక్కో టోకెన్‌ను ఉత్పత్తి చేస్తుంది.",qe,nt,cl="డీకోడ్ దశలో ప్రతి కొత్త టోకెన్ కోసం జరిగే అనేక కీలక దశలు ఉంటాయి:",Ee,pt,ti="<li><strong>అటెన్షన్ కంప్యూటేషన్</strong>: కాంటెక్స్ట్‌ను అర్థం చేసుకోవడానికి మునుపటి అన్ని టోకెన్‌లను తిరిగి చూడటం</li> <li><strong>సంభావ్యత గణన</strong>: సాధ్యమయ్యే ప్రతి తదుపరి టోకెన్ యొక్క సంభావ్యతను నిర్ణయించడం</li> <li><strong>టోకెన్ ఎంపిక</strong>: ఈ సంభావ్యతల ఆధారంగా తదుపరి టోకెన్‌ను ఎంచుకోవడం</li> <li><strong>కొనసాగింపు తనిఖీ</strong>: జనరేషన్‌ను కొనసాగించాలా లేదా ఆపాలా అని నిర్ణయించడం</li>",je,st,ei="ఈ దశ మెమరీ-ఇంటెన్సివ్ ఎందుకంటే మోడల్ గతంలో ఉత్పత్తి చేయబడిన అన్ని టోకెన్‌లను మరియు వాటి సంబంధాలను గుర్తుంచుకోవాలి.",Oe,ft,Ae,$t,li="ఇప్పుడు మనం మోడల్ టెక్స్ట్‌ను ఎలా ఉత్పత్తి చేస్తుందో అర్థం చేసుకున్నాం కాబట్టి, ఈ జనరేషన్ ప్రక్రియను మనం నియంత్రించగల వివిధ మార్గాలను అన్వేషిద్దాం. ఒక రచయిత మరింత సృజనాత్మకంగా లేదా మరింత కచ్చితంగా ఉండటానికి మధ్య ఎంచుకున్నట్లే, మోడల్ తన టోకెన్ ఎంపికలను ఎలా చేయాలో మనం సర్దుబాటు చేయవచ్చు.",Fe,xt,ii="ఈ స్పేస్‌లో SmolLM2 తో మీరు ప్రాథమిక డీకోడింగ్ ప్రక్రియతో స్వయంగా ఇంటరాక్ట్ అవ్వవచ్చు (గుర్తుంచుకోండి, ఇది ఈ మోడల్‌కు <strong>EOS</strong> అయిన <code>&lt;|im_end|&gt;</code> టోకెన్‌ను చేరుకునే వరకు డీకోడ్ చేస్తుంది):",Re,P,ni,Ie,mt,Ue,ut,pi="మోడల్ తదుపరి టోకెన్‌ను ఎంచుకోవలసి వచ్చినప్పుడు, అది దాని పదజాలంలోని ప్రతి పదానికి ముడి సంభావ్యతలతో (logits అని పిలుస్తారు) ప్రారంభమవుతుంది. కానీ ఈ సంభావ్యతలను మనం అసలు ఎంపికలుగా ఎలా మారుస్తాం? ప్రక్రియను విభజించి చూద్దాం:",Ve,rt,si='<img src="https://huggingface.co/reasoning-course/images/resolve/main/inference/1.png" alt="image"/>',Se,vt,fi="<li><strong>రా లాజిట్స్ (Raw Logits)</strong>: సాధ్యమైన ప్రతి తదుపరి పదం గురించి మోడల్ యొక్క ప్రారంభ అంతర్ దృష్టిగా వీటిని భావించండి</li> <li><strong>టెంపరేచర్ కంట్రోల్</strong>: ఒక క్రియేటివిటీ డయల్ లాంటిది - అధిక సెట్టింగ్‌లు <code>(&gt;1.0)</code> ఎంపికలను మరింత యాదృచ్ఛికంగా మరియు సృజనాత్మకంగా చేస్తాయి, తక్కువ సెట్టింగ్‌లు <code>(&lt;1.0)</code> వాటిని మరింత కేంద్రీకృతంగా మరియు నిర్ధారితంగా చేస్తాయి</li> <li><strong>టాప్-పి (న్యూక్లియస్) శాంప్లింగ్</strong>: సాధ్యమయ్యే అన్ని పదాలను పరిగణలోకి తీసుకోకుండా, మనం ఎంచుకున్న సంభావ్యత థ్రెషోల్డ్‌కు (ఉదా., టాప్ 90%) సరిపోయే అత్యంత సంభావ్య పదాలను మాత్రమే చూస్తాము</li> <li><strong>టాప్-కె ఫిల్టరింగ్</strong>: ఒక ప్రత్యామ్నాయ విధానం, ఇక్కడ మనం k అత్యంత సంభావ్య తదుపరి పదాలను మాత్రమే పరిగణలోకి తీసుకుంటాము</li>",Ge,at,Ke,Ct,$i="LLMలతో ఒక సాధారణ సవాలు ఏమిటంటే, అవి తమను తాము పునరావృతం చేసుకునే ధోరణి - ఒకే పాయింట్లకు పదేపదే తిరిగివచ్చే స్పీకర్ లాగా. దీనిని పరిష్కరించడానికి, మేము రెండు రకాల పెనాల్టీలను ఉపయోగిస్తాము:",Be,gt,xi="<li><strong>ప్రెజెన్స్ పెనాల్టీ (Presence Penalty)</strong>: ఇదివరకు కనిపించిన ఏ టోకెన్‌కైనా, అది ఎంత తరచుగా కనిపించినా వర్తించే ఒక స్థిరమైన పెనాల్టీ. ఇది మోడల్ అదే పదాలను తిరిగి ఉపయోగించకుండా నిరోధించడానికి సహాయపడుతుంది.</li> <li><strong>ఫ్రీక్వెన్సీ పెనాల్టీ (Frequency Penalty)</strong>: ఒక టోకెన్ ఎంత తరచుగా ఉపయోగించబడిందనే దానిపై ఆధారపడి పెరిగే స్కేలింగ్ పెనాల్టీ. ఒక పదం ఎంత ఎక్కువగా కనిపిస్తే, అది మళ్లీ ఎంపికయ్యే అవకాశం అంత తక్కువ.</li>",Qe,Lt,mi='<img src="https://huggingface.co/reasoning-course/images/resolve/main/inference/2.png" alt="image"/>',Ne,ot,ui="ఇతర శాంప్లింగ్ వ్యూహాలు వర్తించే ముందు, ఈ పెనాల్టీలు టోకెన్ ఎంపిక ప్రక్రియలో ప్రారంభంలోనే వర్తింపజేయబడతాయి, ముడి సంభావ్యతలను సర్దుబాటు చేస్తాయి. కొత్త పదజాలాన్ని అన్వేషించడానికి మోడల్‌ను ప్రోత్సహించే సున్నితమైన ప్రోత్సాహకాలుగా వీటిని భావించండి.",Ye,_t,De,dt,ri="ఒక మంచి కథకు సరైన వేగం మరియు పొడవు అవసరమైనట్లే, మన LLM ఎంత టెక్స్ట్ ఉత్పత్తి చేస్తుందో నియంత్రించడానికి మనకు మార్గాలు అవసరం. ఆచరణాత్మక అనువర్తనాలకు ఇది చాలా ముఖ్యం - మనం ట్వీట్-పొడవు ప్రతిస్పందనను ఉత్పత్తి చేస్తున్నా లేదా పూర్తి బ్లాగ్ పోస్ట్‌ను ఉత్పత్తి చేస్తున్నా.",We,Mt,vi="మనం జనరేషన్ పొడవును అనేక విధాలుగా నియంత్రించవచ్చు:",Xe,Tt,ai="<li><strong>టోకెన్ పరిమితులు</strong>: కనీస మరియు గరిష్ట టోకెన్ల సంఖ్యను సెట్ చేయడం</li> <li><strong>స్టాప్ సీక్వెన్సులు</strong>: జనరేషన్ ముగింపును సూచించే నిర్దిష్ట నమూనాలను నిర్వచించడం</li> <li><strong>ఎండ్-ఆఫ్-సీక్వెన్స్ డిటెక్షన్</strong>: మోడల్ తన ప్రతిస్పందనను సహజంగా ముగించనివ్వడం</li>",Ze,Pt,Ci="ఉదాహరణకు, మనం ఒకే పేరాగ్రాఫ్‌ను రూపొందించాలనుకుంటే, గరిష్టంగా 100 టోకెన్‌లను సెట్ చేసి “\\n\\n” ను స్టాప్ సీక్వెన్స్‌గా ఉపయోగించవచ్చు. ఇది మన అవుట్‌పుట్ దాని ప్రయోజనం కోసం కేంద్రీకృతమై మరియు తగిన పరిమాణంలో ఉండేలా చేస్తుంది.",Je,bt,gi='<img src="https://huggingface.co/reasoning-course/images/resolve/main/inference/3.png" alt="image"/>',ce,wt,tl,yt,Li="ఇప్పటివరకు మనం చర్చించిన వ్యూహాలు ఒక సమయంలో ఒక్కో టోకెన్‌కు మాత్రమే నిర్ణయాలు తీసుకుంటాయి, కానీ బీమ్ సెర్చ్ మరింత సమగ్రమైన విధానాన్ని తీసుకుంటుంది. ప్రతి దశలో ఒకే ఎంపికకు కట్టుబడి ఉండటానికి బదులుగా, ఇది ఒకేసారి అనేక సాధ్యమైన మార్గాలను అన్వేషిస్తుంది - చదరంగం ఆటగాడు అనేక ఎత్తుగడలను ముందుకు ఆలోచించినట్లుగా.",el,Ht,oi='<img src="https://huggingface.co/reasoning-course/images/resolve/main/inference/4.png" alt="image"/>',ll,ht,_i="ఇది ఎలా పనిచేస్తుందో ఇక్కడ ఉంది:",il,kt,di="<li>ప్రతీ దశలో, అనేక అభ్యర్థి సీక్వెన్సులను (సాధారణంగా 5-10) నిర్వహించండి</li> <li>ప్రతి అభ్యర్థికి, తదుపరి టోకెన్ కోసం సంభావ్యతలను గణించండి</li> <li>సీక్వెన్సులు మరియు తదుపరి టోకెన్‌ల యొక్క అత్యంత ఆశాజనకమైన కలయికలను మాత్రమే ఉంచండి</li> <li>కావలసిన పొడవు లేదా స్టాప్ కండిషన్ చేరే వరకు ఈ ప్రక్రియను కొనసాగించండి</li> <li>అత్యధిక మొత్తం సంభావ్యత ఉన్న సీక్వెన్స్‌ను ఎంచుకోండి</li>",nl,zt,Mi="మీరు బీమ్ సెర్చ్‌ను దృశ్యమానంగా ఇక్కడ అన్వేషించవచ్చు:",pl,b,Ti,sl,qt,Pi="ఈ విధానం తరచుగా మరింత పొందికైన మరియు వ్యాకరణపరంగా సరైన టెక్స్ట్‌ను ఉత్పత్తి చేస్తుంది, కానీ ఇది సరళమైన పద్ధతుల కంటే ఎక్కువ కంప్యూటేషనల్ వనరులను తీసుకుంటుంది.",fl,Et,$l,jt,bi="LLM ఇన్ఫరెన్స్ అన్వేషణను ముగించే ముందు, ఈ మోడల్స్‌ను అమలు చేసేటప్పుడు మీరు ఎదుర్కొనే ఆచరణాత్మక సవాళ్లను, మరియు వాటి పనితీరును ఎలా కొలవాలి మరియు ఆప్టిమైజ్ చేయాలో చూద్దాం.",xl,Ot,ml,At,wi="LLMలతో పనిచేసేటప్పుడు, నాలుగు కీలకమైన కొలమానాలు మీ అమలు నిర్ణయాలను తీర్చిదిద్దుతాయి:",ul,Ft,yi="<li><strong>టైమ్ టు ఫస్ట్ టోకెన్ (TTFT)</strong>: మొదటి ప్రతిస్పందనను ఎంత త్వరగా పొందగలరు? ఇది వినియోగదారు అనుభవం కోసం చాలా ముఖ్యం మరియు దీనిపై ప్రధానంగా ప్రీఫిల్ దశ ప్రభావం చూపుతుంది.</li> <li><strong>టైమ్ పర్ అవుట్‌పుట్ టోకెన్ (TPOT)</strong>: తర్వాతి టోకెన్‌లను ఎంత వేగంగా ఉత్పత్తి చేయగలరు? ఇది మొత్తం జనరేషన్ వేగాన్ని నిర్ధారిస్తుంది.</li> <li><strong>త్రూపుట్ (Throughput)</strong>: ఒకేసారి ఎన్ని అభ్యర్థనలను మీరు నిర్వహించగలరు? ఇది స్కేలింగ్ మరియు ఖర్చు సమర్థతపై ప్రభావం చూపుతుంది.</li> <li><strong>VRAM వినియోగం</strong>: మీకు ఎంత GPU మెమరీ అవసరం? వాస్తవ ప్రపంచ అప్లికేషన్‌లలో ఇది తరచుగా ప్రధాన పరిమితిగా మారుతుంది.</li>",rl,Rt,vl,It,Hi="LLM ఇన్ఫరెన్స్‌లో అత్యంత ముఖ్యమైన సవాళ్లలో ఒకటి కాంటెక్స్ట్ లెంగ్త్‌ను సమర్థవంతంగా నిర్వహించడం. పొడవైన కాంటెక్స్ట్‌లు ఎక్కువ సమాచారాన్ని అందిస్తాయి కానీ గణనీయమైన ఖర్చులతో వస్తాయి:",al,Ut,hi="<li><strong>మెమరీ వినియోగం</strong>: కాంటెక్స్ట్ లెంగ్త్‌తో వర్గానుపాతంలో (quadratically) పెరుగుతుంది</li> <li><strong>ప్రాసెసింగ్ వేగం</strong>: పొడవైన కాంటెక్స్ట్‌లతో సరళంగా (linearly) తగ్గుతుంది</li> <li><strong>వనరుల కేటాయింపు</strong>: VRAM వినియోగాన్ని జాగ్రత్తగా సమతుల్యం చేయడం అవసరం</li>",Cl,Vt,ki='<a href="https://huggingface.co/Qwen/Qwen2.5-14B-Instruct-1M" rel="nofollow">Qwen2.5-1M</a> వంటి ఇటీవలి మోడల్స్ 1M టోకెన్ కాంటెక్స్ట్ విండోలను అందిస్తాయి, కానీ ఇది గణనీయంగా నెమ్మదిగా ఉండే ఇన్ఫరెన్స్ సమయాల ఖర్చుతో వస్తుంది. మీ నిర్దిష్ట వినియోగ సందర్భానికి సరైన సమతుల్యాన్ని కనుగొనడం కీలకం.',gl,d,zi=`<div style="border: 2px solid #ddd; border-radius: 8px; padding: 20px; margin-bottom: 20px;"><div style="display: flex; align-items: center; margin-bottom: 15px;"><div style="flex: 1; text-align: center; padding: 10px; background: #f0f0f0; border-radius: 4px;">Input Text (Raw)</div> <div style="margin: 0 10px;">→</div> <div style="flex: 1; text-align: center; padding: 10px; background: #e1f5fe; border-radius: 4px;">Tokenized Input</div></div> <div style="display: flex; margin-bottom: 15px;"><div style="flex: 1; border: 1px solid #ccc; padding: 10px; margin: 5px; background: #e8f5e9; border-radius: 4px; text-align: center;">Context Window
<br/>
(e.g., 4K tokens)
<div style="display: flex; margin-top: 10px;"><div style="flex: 1; background: #81c784; margin: 2px; height: 20px; border-radius: 2px;"></div> <div style="flex: 1; background: #81c784; margin: 2px; height: 20px; border-radius: 2px;"></div> <div style="flex: 1; background: #81c784; margin: 2px; height: 20px; border-radius: 2px;"></div> <div style="flex: 1; background: #81c784; margin: 2px; height: 20px; border-radius: 2px;"></div></div></div></div> <div style="display: flex; justify-content: space-between; text-align: center; font-size: 0.9em; color: #666;"><div style="flex: 1;"><div style="border: 1px solid #ffcc80; padding: 8px; margin: 5px; background: #fff3e0; border-radius: 4px;">Memory Usage
<br/>∝ Length²</div></div> <div style="flex: 1;"><div style="border: 1px solid #90caf9; padding: 8px; margin: 5px; background: #e3f2fd; border-radius: 4px;">Processing Time
<br/>∝ Length</div></div></div></div>`,Ll,St,ol,Gt,qi="ఈ సవాళ్లను ఎదుర్కోవడానికి, అత్యంత శక్తివంతమైన ఆప్టిమైజేషన్‌లలో ఒకటి KV (కీ-వాల్యూ) కాషింగ్. ఈ టెక్నిక్ మధ్యంతర గణనలను నిల్వ చేయడం మరియు తిరిగి ఉపయోగించడం ద్వారా ఇన్ఫరెన్స్ వేగాన్ని గణనీయంగా మెరుగుపరుస్తుంది. ఈ ఆప్టిమైజేషన్:",_l,Kt,Ei="<li>పునరావృత గణనలను తగ్గిస్తుంది</li> <li>జనరేషన్ వేగాన్ని మెరుగుపరుస్తుంది</li> <li>సుదీర్ఘ-సందర్భ (long-context) జనరేషన్‌ను ఆచరణాత్మకంగా చేస్తుంది</li>",dl,Bt,ji="దీని ప్రతికూలత అదనపు మెమరీ వినియోగం, కానీ పనితీరు ప్రయోజనాలు సాధారణంగా ఈ ఖర్చును అధిగమిస్తాయి.",Ml,Qt,Tl,Nt,Oi="ఈ శక్తివంతమైన మోడల్స్‌ను సమర్థవంతంగా అమలు చేయడానికి మరియు ఆప్టిమైజ్ చేయడానికి LLM ఇన్ఫరెన్స్‌ను అర్థం చేసుకోవడం చాలా ముఖ్యం. మేము కవర్ చేసిన ముఖ్య అంశాలు:",Pl,Yt,Ai="<li>అటెన్షన్ మరియు కాంటెక్స్ట్ యొక్క ప్రాథమిక పాత్ర</li> <li>రెండు-దశల ఇన్ఫరెన్స్ ప్రక్రియ</li> <li>జనరేషన్‌ను నియంత్రించడానికి వివిధ శాంప్లింగ్ వ్యూహాలు</li> <li>ఆచరణాత్మక సవాళ్లు మరియు ఆప్టిమైజేషన్లు</li>",bl,Dt,Fi="ఈ భావనలపై పట్టు సాధించడం ద్వారా, LLMలను సమర్థవంతంగా మరియు ప్రభావవంతంగా ఉపయోగించుకునే అప్లికేషన్‌లను రూపొందించడానికి మీరు మరింత మెరుగ్గా సిద్ధమవుతారు.",wl,Wt,Ri="LLM ఇన్ఫరెన్స్ రంగం వేగంగా అభివృద్ధి చెందుతోందని, కొత్త టెక్నిక్‌లు మరియు ఆప్టిమైజేషన్‌లు క్రమం తప్పకుండా వస్తున్నాయని గుర్తుంచుకోండి. ఆసక్తిగా ఉండండి మరియు మీ నిర్దిష్ట వినియోగ సందర్భాలకు ఏది ఉత్తమంగా పనిచేస్తుందో కనుగొనడానికి వివిధ విధానాలతో ప్రయోగాలు చేస్తూ ఉండండి.",yl,Xt,Hl,Zt,hl;return z=new L({props:{title:"LLMలతో టెక్స్ట్ జనరేషన్ ఇన్ఫరెన్స్ పై లోతైన పరిశీలన",local:"inference-with-llms",headingTag:"h1"}}),q=new Di({props:{chapter:1,classNames:"absolute z-10 right-0 top-0"}}),E=new Yi({props:{id:"Xp2w1_LKZN4"}}),A=new L({props:{title:"ప్రాథమికాలను అర్థం చేసుకోవడం",local:"పరథమకలన-అరథ-చసకవడ",headingTag:"h2"}}),R=new L({props:{title:"అటెన్షన్ పాత్ర",local:"అటనషన-పతర",headingTag:"h2"}}),H=new ql({props:{$$slots:{default:[Xi]},$$scope:{ctx:w}}}),V=new L({props:{title:"కాంటెక్స్ట్ లెంగ్త్ మరియు అటెన్షన్ స్పాన్",local:"కటకసట-లగత-మరయ-అటనషన-సపన",headingTag:"h3"}}),h=new ql({props:{$$slots:{default:[Zi]},$$scope:{ctx:w}}}),N=new L({props:{title:"ప్రాంప్టింగ్ కళ",local:"పరపటగ-కళ",headingTag:"h3"}}),k=new ql({props:{$$slots:{default:[Ji]},$$scope:{ctx:w}}}),W=new L({props:{title:"రెండు-దశల ఇన్ఫరెన్స్ ప్రక్రియ",local:"రడ-దశల-ఇనఫరనస-పరకరయ",headingTag:"h2"}}),Z=new L({props:{title:"ప్రీఫిల్ దశ",local:"పరఫల-దశ",headingTag:"h3"}}),lt=new L({props:{title:"డీకోడ్ దశ",local:"డకడ-దశ",headingTag:"h3"}}),ft=new L({props:{title:"శాంప్లింగ్ వ్యూహాలు",local:"శపలగ-వయహల",headingTag:"h2"}}),mt=new L({props:{title:"టోకెన్ ఎంపికను అర్థం చేసుకోవడం: సంభావ్యతల నుండి టోకెన్ ఎంపికల వరకు",local:"టకన-ఎపకన-అరథ-చసకవడ-సభవయతల-నడ-టకన-ఎపకల-వరక",headingTag:"h3"}}),at=new L({props:{title:"పునరావృత్తిని నిర్వహించడం: అవుట్‌పుట్‌ను తాజాగా ఉంచడం",local:"పనరవతతన-నరవహచడ-అవటపటన-తజగ-ఉచడ",headingTag:"h3"}}),_t=new L({props:{title:"జనరేషన్ పొడవును నియంత్రించడం: సరిహద్దులను సెట్ చేయడం",local:"జనరషన-పడవన-నయతరచడ-సరహదదలన-సట-చయడ",headingTag:"h3"}}),wt=new L({props:{title:"బీమ్ సెర్చ్: మెరుగైన పొందిక కోసం ముందుకు చూడటం",local:"బమ-సరచ-మరగన-పదక-కస-మదక-చడట",headingTag:"h3"}}),Et=new L({props:{title:"ఆచరణాత్మక సవాళ్లు మరియు ఆప్టిమైజేషన్",local:"ఆచరణతమక-సవళల-మరయ-ఆపటమజషన",headingTag:"h2"}}),Ot=new L({props:{title:"కీలక పనితీరు కొలమానాలు",local:"కలక-పనతర-కలమనల",headingTag:"h3"}}),Rt=new L({props:{title:"కాంటెక్స్ట్ లెంగ్త్ సవాలు",local:"కటకసట-లగత-సవల",headingTag:"h3"}}),St=new L({props:{title:"KV కాష్ ఆప్టిమైజేషన్",local:"kv-కష-ఆపటమజషన",headingTag:"h3"}}),Qt=new L({props:{title:"ముగింపు",local:"మగప",headingTag:"h2"}}),Xt=new Wi({props:{source:"https://github.com/huggingface/course/blob/main/chapters/te/chapter1/8.mdx"}}),{c(){x=s("meta"),_=n(),g=s("p"),M=n(),m(z.$$.fragment),ct=n(),m(q.$$.fragment),te=n(),m(E.$$.fragment),ee=n(),j=s("p"),j.textContent=jl,le=n(),O=s("p"),O.textContent=Ol,ie=n(),m(A.$$.fragment),ne=n(),F=s("p"),F.textContent=Al,pe=n(),m(R.$$.fragment),se=n(),I=s("p"),I.textContent=Fl,fe=n(),y=s("img"),$e=n(),U=s("p"),U.textContent=Il,xe=n(),m(H.$$.fragment),me=n(),m(V.$$.fragment),ue=n(),S=s("p"),S.textContent=Ul,re=n(),G=s("p"),G.textContent=Vl,ve=n(),K=s("p"),K.textContent=Sl,ae=n(),B=s("ul"),B.innerHTML=Gl,Ce=n(),Q=s("p"),Q.textContent=Kl,ge=n(),m(h.$$.fragment),Le=n(),m(N.$$.fragment),oe=n(),Y=s("p"),Y.textContent=Bl,_e=n(),D=s("p"),D.textContent=Ql,de=n(),m(k.$$.fragment),Me=n(),m(W.$$.fragment),Te=n(),X=s("p"),X.textContent=Nl,Pe=n(),m(Z.$$.fragment),be=n(),J=s("p"),J.textContent=Yl,we=n(),c=s("ol"),c.innerHTML=Dl,ye=n(),tt=s("p"),tt.textContent=Wl,He=n(),et=s("p"),et.textContent=Xl,he=n(),T=s("iframe"),ke=n(),m(lt.$$.fragment),ze=n(),it=s("p"),it.textContent=Jl,qe=n(),nt=s("p"),nt.textContent=cl,Ee=n(),pt=s("ol"),pt.innerHTML=ti,je=n(),st=s("p"),st.textContent=ei,Oe=n(),m(ft.$$.fragment),Ae=n(),$t=s("p"),$t.textContent=li,Fe=n(),xt=s("p"),xt.innerHTML=ii,Re=n(),P=s("iframe"),Ie=n(),m(mt.$$.fragment),Ue=n(),ut=s("p"),ut.textContent=pi,Ve=n(),rt=s("p"),rt.innerHTML=si,Se=n(),vt=s("ol"),vt.innerHTML=fi,Ge=n(),m(at.$$.fragment),Ke=n(),Ct=s("p"),Ct.textContent=$i,Be=n(),gt=s("ol"),gt.innerHTML=xi,Qe=n(),Lt=s("p"),Lt.innerHTML=mi,Ne=n(),ot=s("p"),ot.textContent=ui,Ye=n(),m(_t.$$.fragment),De=n(),dt=s("p"),dt.textContent=ri,We=n(),Mt=s("p"),Mt.textContent=vi,Xe=n(),Tt=s("ol"),Tt.innerHTML=ai,Ze=n(),Pt=s("p"),Pt.textContent=Ci,Je=n(),bt=s("p"),bt.innerHTML=gi,ce=n(),m(wt.$$.fragment),tl=n(),yt=s("p"),yt.textContent=Li,el=n(),Ht=s("p"),Ht.innerHTML=oi,ll=n(),ht=s("p"),ht.textContent=_i,il=n(),kt=s("ol"),kt.innerHTML=di,nl=n(),zt=s("p"),zt.textContent=Mi,pl=n(),b=s("iframe"),sl=n(),qt=s("p"),qt.textContent=Pi,fl=n(),m(Et.$$.fragment),$l=n(),jt=s("p"),jt.textContent=bi,xl=n(),m(Ot.$$.fragment),ml=n(),At=s("p"),At.textContent=wi,ul=n(),Ft=s("ol"),Ft.innerHTML=yi,rl=n(),m(Rt.$$.fragment),vl=n(),It=s("p"),It.textContent=Hi,al=n(),Ut=s("ul"),Ut.innerHTML=hi,Cl=n(),Vt=s("p"),Vt.innerHTML=ki,gl=n(),d=s("div"),d.innerHTML=zi,Ll=n(),m(St.$$.fragment),ol=n(),Gt=s("p"),Gt.textContent=qi,_l=n(),Kt=s("ul"),Kt.innerHTML=Ei,dl=n(),Bt=s("p"),Bt.textContent=ji,Ml=n(),m(Qt.$$.fragment),Tl=n(),Nt=s("p"),Nt.textContent=Oi,Pl=n(),Yt=s("ul"),Yt.innerHTML=Ai,bl=n(),Dt=s("p"),Dt.textContent=Fi,wl=n(),Wt=s("p"),Wt.textContent=Ri,yl=n(),m(Xt.$$.fragment),Hl=n(),Zt=s("p"),this.h()},l(t){const e=Qi("svelte-u9bgzb",document.head);x=f(e,"META",{name:!0,content:!0}),e.forEach(l),_=p(t),g=f(t,"P",{}),Jt(g).forEach(l),M=p(t),u(z.$$.fragment,t),ct=p(t),u(q.$$.fragment,t),te=p(t),u(E.$$.fragment,t),ee=p(t),j=f(t,"P",{"data-svelte-h":!0}),$(j)!=="svelte-zenck"&&(j.textContent=jl),le=p(t),O=f(t,"P",{"data-svelte-h":!0}),$(O)!=="svelte-1e3f7t1"&&(O.textContent=Ol),ie=p(t),u(A.$$.fragment,t),ne=p(t),F=f(t,"P",{"data-svelte-h":!0}),$(F)!=="svelte-eidfqt"&&(F.textContent=Al),pe=p(t),u(R.$$.fragment,t),se=p(t),I=f(t,"P",{"data-svelte-h":!0}),$(I)!=="svelte-19zan91"&&(I.textContent=Fl),fe=p(t),y=f(t,"IMG",{src:!0,alt:!0,width:!0}),$e=p(t),U=f(t,"P",{"data-svelte-h":!0}),$(U)!=="svelte-18e17lu"&&(U.textContent=Il),xe=p(t),u(H.$$.fragment,t),me=p(t),u(V.$$.fragment,t),ue=p(t),S=f(t,"P",{"data-svelte-h":!0}),$(S)!=="svelte-1ymr1no"&&(S.textContent=Ul),re=p(t),G=f(t,"P",{"data-svelte-h":!0}),$(G)!=="svelte-3jsrll"&&(G.textContent=Vl),ve=p(t),K=f(t,"P",{"data-svelte-h":!0}),$(K)!=="svelte-16m634c"&&(K.textContent=Sl),ae=p(t),B=f(t,"UL",{"data-svelte-h":!0}),$(B)!=="svelte-fq66s4"&&(B.innerHTML=Gl),Ce=p(t),Q=f(t,"P",{"data-svelte-h":!0}),$(Q)!=="svelte-6hx6er"&&(Q.textContent=Kl),ge=p(t),u(h.$$.fragment,t),Le=p(t),u(N.$$.fragment,t),oe=p(t),Y=f(t,"P",{"data-svelte-h":!0}),$(Y)!=="svelte-1gluxiw"&&(Y.textContent=Bl),_e=p(t),D=f(t,"P",{"data-svelte-h":!0}),$(D)!=="svelte-188zozx"&&(D.textContent=Ql),de=p(t),u(k.$$.fragment,t),Me=p(t),u(W.$$.fragment,t),Te=p(t),X=f(t,"P",{"data-svelte-h":!0}),$(X)!=="svelte-107kow0"&&(X.textContent=Nl),Pe=p(t),u(Z.$$.fragment,t),be=p(t),J=f(t,"P",{"data-svelte-h":!0}),$(J)!=="svelte-1lw8vth"&&(J.textContent=Yl),we=p(t),c=f(t,"OL",{"data-svelte-h":!0}),$(c)!=="svelte-99yo85"&&(c.innerHTML=Dl),ye=p(t),tt=f(t,"P",{"data-svelte-h":!0}),$(tt)!=="svelte-a4t7e"&&(tt.textContent=Wl),He=p(t),et=f(t,"P",{"data-svelte-h":!0}),$(et)!=="svelte-1dt0qrz"&&(et.textContent=Xl),he=p(t),T=f(t,"IFRAME",{src:!0,frameborder:!0,width:!0,height:!0}),Jt(T).forEach(l),ke=p(t),u(lt.$$.fragment,t),ze=p(t),it=f(t,"P",{"data-svelte-h":!0}),$(it)!=="svelte-p9onu6"&&(it.textContent=Jl),qe=p(t),nt=f(t,"P",{"data-svelte-h":!0}),$(nt)!=="svelte-dbtkc1"&&(nt.textContent=cl),Ee=p(t),pt=f(t,"OL",{"data-svelte-h":!0}),$(pt)!=="svelte-1hd4xjp"&&(pt.innerHTML=ti),je=p(t),st=f(t,"P",{"data-svelte-h":!0}),$(st)!=="svelte-tdjtif"&&(st.textContent=ei),Oe=p(t),u(ft.$$.fragment,t),Ae=p(t),$t=f(t,"P",{"data-svelte-h":!0}),$($t)!=="svelte-1u7sx75"&&($t.textContent=li),Fe=p(t),xt=f(t,"P",{"data-svelte-h":!0}),$(xt)!=="svelte-195i4am"&&(xt.innerHTML=ii),Re=p(t),P=f(t,"IFRAME",{src:!0,frameborder:!0,width:!0,height:!0}),Jt(P).forEach(l),Ie=p(t),u(mt.$$.fragment,t),Ue=p(t),ut=f(t,"P",{"data-svelte-h":!0}),$(ut)!=="svelte-1swqzhq"&&(ut.textContent=pi),Ve=p(t),rt=f(t,"P",{"data-svelte-h":!0}),$(rt)!=="svelte-1sebdze"&&(rt.innerHTML=si),Se=p(t),vt=f(t,"OL",{"data-svelte-h":!0}),$(vt)!=="svelte-1vdhhza"&&(vt.innerHTML=fi),Ge=p(t),u(at.$$.fragment,t),Ke=p(t),Ct=f(t,"P",{"data-svelte-h":!0}),$(Ct)!=="svelte-12cgte3"&&(Ct.textContent=$i),Be=p(t),gt=f(t,"OL",{"data-svelte-h":!0}),$(gt)!=="svelte-1v06fri"&&(gt.innerHTML=xi),Qe=p(t),Lt=f(t,"P",{"data-svelte-h":!0}),$(Lt)!=="svelte-1lk0dqv"&&(Lt.innerHTML=mi),Ne=p(t),ot=f(t,"P",{"data-svelte-h":!0}),$(ot)!=="svelte-108pdtq"&&(ot.textContent=ui),Ye=p(t),u(_t.$$.fragment,t),De=p(t),dt=f(t,"P",{"data-svelte-h":!0}),$(dt)!=="svelte-c7axf1"&&(dt.textContent=ri),We=p(t),Mt=f(t,"P",{"data-svelte-h":!0}),$(Mt)!=="svelte-14sf1au"&&(Mt.textContent=vi),Xe=p(t),Tt=f(t,"OL",{"data-svelte-h":!0}),$(Tt)!=="svelte-i7866f"&&(Tt.innerHTML=ai),Ze=p(t),Pt=f(t,"P",{"data-svelte-h":!0}),$(Pt)!=="svelte-jcoyg6"&&(Pt.textContent=Ci),Je=p(t),bt=f(t,"P",{"data-svelte-h":!0}),$(bt)!=="svelte-dm4r1s"&&(bt.innerHTML=gi),ce=p(t),u(wt.$$.fragment,t),tl=p(t),yt=f(t,"P",{"data-svelte-h":!0}),$(yt)!=="svelte-1atc5vg"&&(yt.textContent=Li),el=p(t),Ht=f(t,"P",{"data-svelte-h":!0}),$(Ht)!=="svelte-vqpudp"&&(Ht.innerHTML=oi),ll=p(t),ht=f(t,"P",{"data-svelte-h":!0}),$(ht)!=="svelte-j70sda"&&(ht.textContent=_i),il=p(t),kt=f(t,"OL",{"data-svelte-h":!0}),$(kt)!=="svelte-5o20"&&(kt.innerHTML=di),nl=p(t),zt=f(t,"P",{"data-svelte-h":!0}),$(zt)!=="svelte-p3wmbt"&&(zt.textContent=Mi),pl=p(t),b=f(t,"IFRAME",{src:!0,frameborder:!0,width:!0,height:!0}),Jt(b).forEach(l),sl=p(t),qt=f(t,"P",{"data-svelte-h":!0}),$(qt)!=="svelte-17x7r5l"&&(qt.textContent=Pi),fl=p(t),u(Et.$$.fragment,t),$l=p(t),jt=f(t,"P",{"data-svelte-h":!0}),$(jt)!=="svelte-19f1n72"&&(jt.textContent=bi),xl=p(t),u(Ot.$$.fragment,t),ml=p(t),At=f(t,"P",{"data-svelte-h":!0}),$(At)!=="svelte-xbf43j"&&(At.textContent=wi),ul=p(t),Ft=f(t,"OL",{"data-svelte-h":!0}),$(Ft)!=="svelte-vou35v"&&(Ft.innerHTML=yi),rl=p(t),u(Rt.$$.fragment,t),vl=p(t),It=f(t,"P",{"data-svelte-h":!0}),$(It)!=="svelte-1j0bdzc"&&(It.textContent=Hi),al=p(t),Ut=f(t,"UL",{"data-svelte-h":!0}),$(Ut)!=="svelte-1r5jr0c"&&(Ut.innerHTML=hi),Cl=p(t),Vt=f(t,"P",{"data-svelte-h":!0}),$(Vt)!=="svelte-1ekxnem"&&(Vt.innerHTML=ki),gl=p(t),d=f(t,"DIV",{style:!0,"data-svelte-h":!0}),$(d)!=="svelte-v1xhrf"&&(d.innerHTML=zi),Ll=p(t),u(St.$$.fragment,t),ol=p(t),Gt=f(t,"P",{"data-svelte-h":!0}),$(Gt)!=="svelte-2gd5tw"&&(Gt.textContent=qi),_l=p(t),Kt=f(t,"UL",{"data-svelte-h":!0}),$(Kt)!=="svelte-1yl02tv"&&(Kt.innerHTML=Ei),dl=p(t),Bt=f(t,"P",{"data-svelte-h":!0}),$(Bt)!=="svelte-dz00bt"&&(Bt.textContent=ji),Ml=p(t),u(Qt.$$.fragment,t),Tl=p(t),Nt=f(t,"P",{"data-svelte-h":!0}),$(Nt)!=="svelte-1xxi0qn"&&(Nt.textContent=Oi),Pl=p(t),Yt=f(t,"UL",{"data-svelte-h":!0}),$(Yt)!=="svelte-f2ari6"&&(Yt.innerHTML=Ai),bl=p(t),Dt=f(t,"P",{"data-svelte-h":!0}),$(Dt)!=="svelte-bqpgy3"&&(Dt.textContent=Fi),wl=p(t),Wt=f(t,"P",{"data-svelte-h":!0}),$(Wt)!=="svelte-1dzbk5u"&&(Wt.textContent=Ri),yl=p(t),u(Xt.$$.fragment,t),Hl=p(t),Zt=f(t,"P",{}),Jt(Zt).forEach(l),this.h()},h(){o(x,"name","hf:doc:metadata"),o(x,"content",tn),kl(y.src,Rl="https://huggingface.co/datasets/agents-course/course-images/resolve/main/en/unit1/AttentionSceneFinal.gif")||o(y,"src",Rl),o(y,"alt","Visual Gif of Attention"),o(y,"width","60%"),kl(T.src,Zl="https://agents-course-the-tokenizer-playground.static.hf.space")||o(T,"src",Zl),o(T,"frameborder","0"),o(T,"width","850"),o(T,"height","450"),kl(P.src,ni="https://agents-course-decoding-visualizer.hf.space")||o(P,"src",ni),o(P,"frameborder","0"),o(P,"width","850"),o(P,"height","450"),kl(b.src,Ti="https://agents-course-beam-search-visualizer.hf.space")||o(b,"src",Ti),o(b,"frameborder","0"),o(b,"width","850"),o(b,"height","450"),zl(d,"max-width","800px"),zl(d,"margin","20px auto"),zl(d,"padding","20px"),zl(d,"font-family","system-ui")},m(t,e){Ni(document.head,x),i(t,_,e),i(t,g,e),i(t,M,e),r(z,t,e),i(t,ct,e),r(q,t,e),i(t,te,e),r(E,t,e),i(t,ee,e),i(t,j,e),i(t,le,e),i(t,O,e),i(t,ie,e),r(A,t,e),i(t,ne,e),i(t,F,e),i(t,pe,e),r(R,t,e),i(t,se,e),i(t,I,e),i(t,fe,e),i(t,y,e),i(t,$e,e),i(t,U,e),i(t,xe,e),r(H,t,e),i(t,me,e),r(V,t,e),i(t,ue,e),i(t,S,e),i(t,re,e),i(t,G,e),i(t,ve,e),i(t,K,e),i(t,ae,e),i(t,B,e),i(t,Ce,e),i(t,Q,e),i(t,ge,e),r(h,t,e),i(t,Le,e),r(N,t,e),i(t,oe,e),i(t,Y,e),i(t,_e,e),i(t,D,e),i(t,de,e),r(k,t,e),i(t,Me,e),r(W,t,e),i(t,Te,e),i(t,X,e),i(t,Pe,e),r(Z,t,e),i(t,be,e),i(t,J,e),i(t,we,e),i(t,c,e),i(t,ye,e),i(t,tt,e),i(t,He,e),i(t,et,e),i(t,he,e),i(t,T,e),i(t,ke,e),r(lt,t,e),i(t,ze,e),i(t,it,e),i(t,qe,e),i(t,nt,e),i(t,Ee,e),i(t,pt,e),i(t,je,e),i(t,st,e),i(t,Oe,e),r(ft,t,e),i(t,Ae,e),i(t,$t,e),i(t,Fe,e),i(t,xt,e),i(t,Re,e),i(t,P,e),i(t,Ie,e),r(mt,t,e),i(t,Ue,e),i(t,ut,e),i(t,Ve,e),i(t,rt,e),i(t,Se,e),i(t,vt,e),i(t,Ge,e),r(at,t,e),i(t,Ke,e),i(t,Ct,e),i(t,Be,e),i(t,gt,e),i(t,Qe,e),i(t,Lt,e),i(t,Ne,e),i(t,ot,e),i(t,Ye,e),r(_t,t,e),i(t,De,e),i(t,dt,e),i(t,We,e),i(t,Mt,e),i(t,Xe,e),i(t,Tt,e),i(t,Ze,e),i(t,Pt,e),i(t,Je,e),i(t,bt,e),i(t,ce,e),r(wt,t,e),i(t,tl,e),i(t,yt,e),i(t,el,e),i(t,Ht,e),i(t,ll,e),i(t,ht,e),i(t,il,e),i(t,kt,e),i(t,nl,e),i(t,zt,e),i(t,pl,e),i(t,b,e),i(t,sl,e),i(t,qt,e),i(t,fl,e),r(Et,t,e),i(t,$l,e),i(t,jt,e),i(t,xl,e),r(Ot,t,e),i(t,ml,e),i(t,At,e),i(t,ul,e),i(t,Ft,e),i(t,rl,e),r(Rt,t,e),i(t,vl,e),i(t,It,e),i(t,al,e),i(t,Ut,e),i(t,Cl,e),i(t,Vt,e),i(t,gl,e),i(t,d,e),i(t,Ll,e),r(St,t,e),i(t,ol,e),i(t,Gt,e),i(t,_l,e),i(t,Kt,e),i(t,dl,e),i(t,Bt,e),i(t,Ml,e),r(Qt,t,e),i(t,Tl,e),i(t,Nt,e),i(t,Pl,e),i(t,Yt,e),i(t,bl,e),i(t,Dt,e),i(t,wl,e),i(t,Wt,e),i(t,yl,e),r(Xt,t,e),i(t,Hl,e),i(t,Zt,e),hl=!0},p(t,[e]){const Ii={};e&2&&(Ii.$$scope={dirty:e,ctx:t}),H.$set(Ii);const Ui={};e&2&&(Ui.$$scope={dirty:e,ctx:t}),h.$set(Ui);const Vi={};e&2&&(Vi.$$scope={dirty:e,ctx:t}),k.$set(Vi)},i(t){hl||(v(z.$$.fragment,t),v(q.$$.fragment,t),v(E.$$.fragment,t),v(A.$$.fragment,t),v(R.$$.fragment,t),v(H.$$.fragment,t),v(V.$$.fragment,t),v(h.$$.fragment,t),v(N.$$.fragment,t),v(k.$$.fragment,t),v(W.$$.fragment,t),v(Z.$$.fragment,t),v(lt.$$.fragment,t),v(ft.$$.fragment,t),v(mt.$$.fragment,t),v(at.$$.fragment,t),v(_t.$$.fragment,t),v(wt.$$.fragment,t),v(Et.$$.fragment,t),v(Ot.$$.fragment,t),v(Rt.$$.fragment,t),v(St.$$.fragment,t),v(Qt.$$.fragment,t),v(Xt.$$.fragment,t),hl=!0)},o(t){a(z.$$.fragment,t),a(q.$$.fragment,t),a(E.$$.fragment,t),a(A.$$.fragment,t),a(R.$$.fragment,t),a(H.$$.fragment,t),a(V.$$.fragment,t),a(h.$$.fragment,t),a(N.$$.fragment,t),a(k.$$.fragment,t),a(W.$$.fragment,t),a(Z.$$.fragment,t),a(lt.$$.fragment,t),a(ft.$$.fragment,t),a(mt.$$.fragment,t),a(at.$$.fragment,t),a(_t.$$.fragment,t),a(wt.$$.fragment,t),a(Et.$$.fragment,t),a(Ot.$$.fragment,t),a(Rt.$$.fragment,t),a(St.$$.fragment,t),a(Qt.$$.fragment,t),a(Xt.$$.fragment,t),hl=!1},d(t){t&&(l(_),l(g),l(M),l(ct),l(te),l(ee),l(j),l(le),l(O),l(ie),l(ne),l(F),l(pe),l(se),l(I),l(fe),l(y),l($e),l(U),l(xe),l(me),l(ue),l(S),l(re),l(G),l(ve),l(K),l(ae),l(B),l(Ce),l(Q),l(ge),l(Le),l(oe),l(Y),l(_e),l(D),l(de),l(Me),l(Te),l(X),l(Pe),l(be),l(J),l(we),l(c),l(ye),l(tt),l(He),l(et),l(he),l(T),l(ke),l(ze),l(it),l(qe),l(nt),l(Ee),l(pt),l(je),l(st),l(Oe),l(Ae),l($t),l(Fe),l(xt),l(Re),l(P),l(Ie),l(Ue),l(ut),l(Ve),l(rt),l(Se),l(vt),l(Ge),l(Ke),l(Ct),l(Be),l(gt),l(Qe),l(Lt),l(Ne),l(ot),l(Ye),l(De),l(dt),l(We),l(Mt),l(Xe),l(Tt),l(Ze),l(Pt),l(Je),l(bt),l(ce),l(tl),l(yt),l(el),l(Ht),l(ll),l(ht),l(il),l(kt),l(nl),l(zt),l(pl),l(b),l(sl),l(qt),l(fl),l($l),l(jt),l(xl),l(ml),l(At),l(ul),l(Ft),l(rl),l(vl),l(It),l(al),l(Ut),l(Cl),l(Vt),l(gl),l(d),l(Ll),l(ol),l(Gt),l(_l),l(Kt),l(dl),l(Bt),l(Ml),l(Tl),l(Nt),l(Pl),l(Yt),l(bl),l(Dt),l(wl),l(Wt),l(yl),l(Hl),l(Zt)),l(x),C(z,t),C(q,t),C(E,t),C(A,t),C(R,t),C(H,t),C(V,t),C(h,t),C(N,t),C(k,t),C(W,t),C(Z,t),C(lt,t),C(ft,t),C(mt,t),C(at,t),C(_t,t),C(wt,t),C(Et,t),C(Ot,t),C(Rt,t),C(St,t),C(Qt,t),C(Xt,t)}}}const tn='{"title":"LLMలతో టెక్స్ట్ జనరేషన్ ఇన్ఫరెన్స్ పై లోతైన పరిశీలన","local":"inference-with-llms","sections":[{"title":"ప్రాథమికాలను అర్థం చేసుకోవడం","local":"పరథమకలన-అరథ-చసకవడ","sections":[],"depth":2},{"title":"అటెన్షన్ పాత్ర","local":"అటనషన-పతర","sections":[{"title":"కాంటెక్స్ట్ లెంగ్త్ మరియు అటెన్షన్ స్పాన్","local":"కటకసట-లగత-మరయ-అటనషన-సపన","sections":[],"depth":3},{"title":"ప్రాంప్టింగ్ కళ","local":"పరపటగ-కళ","sections":[],"depth":3}],"depth":2},{"title":"రెండు-దశల ఇన్ఫరెన్స్ ప్రక్రియ","local":"రడ-దశల-ఇనఫరనస-పరకరయ","sections":[{"title":"ప్రీఫిల్ దశ","local":"పరఫల-దశ","sections":[],"depth":3},{"title":"డీకోడ్ దశ","local":"డకడ-దశ","sections":[],"depth":3}],"depth":2},{"title":"శాంప్లింగ్ వ్యూహాలు","local":"శపలగ-వయహల","sections":[{"title":"టోకెన్ ఎంపికను అర్థం చేసుకోవడం: సంభావ్యతల నుండి టోకెన్ ఎంపికల వరకు","local":"టకన-ఎపకన-అరథ-చసకవడ-సభవయతల-నడ-టకన-ఎపకల-వరక","sections":[],"depth":3},{"title":"పునరావృత్తిని నిర్వహించడం: అవుట్‌పుట్‌ను తాజాగా ఉంచడం","local":"పనరవతతన-నరవహచడ-అవటపటన-తజగ-ఉచడ","sections":[],"depth":3},{"title":"జనరేషన్ పొడవును నియంత్రించడం: సరిహద్దులను సెట్ చేయడం","local":"జనరషన-పడవన-నయతరచడ-సరహదదలన-సట-చయడ","sections":[],"depth":3},{"title":"బీమ్ సెర్చ్: మెరుగైన పొందిక కోసం ముందుకు చూడటం","local":"బమ-సరచ-మరగన-పదక-కస-మదక-చడట","sections":[],"depth":3}],"depth":2},{"title":"ఆచరణాత్మక సవాళ్లు మరియు ఆప్టిమైజేషన్","local":"ఆచరణతమక-సవళల-మరయ-ఆపటమజషన","sections":[{"title":"కీలక పనితీరు కొలమానాలు","local":"కలక-పనతర-కలమనల","sections":[],"depth":3},{"title":"కాంటెక్స్ట్ లెంగ్త్ సవాలు","local":"కటకసట-లగత-సవల","sections":[],"depth":3},{"title":"KV కాష్ ఆప్టిమైజేషన్","local":"kv-కష-ఆపటమజషన","sections":[],"depth":3}],"depth":2},{"title":"ముగింపు","local":"మగప","sections":[],"depth":2}],"depth":1}';function en(w){return Gi(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class $n extends Ki{constructor(x){super(),Bi(this,x,en,ci,Si,{})}}export{$n as component};

Xet Storage Details

Size:
55.9 kB
·
Xet hash:
b280c8f93bf54fbf09d87d7e52ce7d4760d6f84c36165bae42da0b8410411929

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.