Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / audio-course /pr_205 /ru /_app /immutable /nodes /16.f3c19ac0.js

rtrm's picture

about 2 months ago

14.2 kB

	import{s as dt,o as ht}from"../chunks/scheduler.cd324960.js";import{S as gt,i as Mt,e as s,s as l,c as V,h as Ht,a as p,d as n,b as a,f as _t,g as q,j as f,k as lt,l as Lt,m as i,n as y,t as A,o as F,p as E,q as Pt,r as wt}from"../chunks/index.d5c3adcc.js";import{T as bt}from"../chunks/Tip.889bec11.js";import{C as St,H as at,E as Vt}from"../chunks/MermaidChart.svelte_svelte_type_style_lang.145cba0d.js";function qt(N){let r;return{c(){r=Pt(`💡 Хотя здесь мы делаем вид, что спектрограммы - это то же самое, что и изображения, есть существенные различия. Например, смещение содержимого изображения вверх или вниз, как правило, не меняет смысла того, что на нем изображено. Однако смещение спектрограммы вверх или вниз приводит к
	изменению частот, присутствующих в звуке, и полностью меняет его характер. Изображения инвариантны при трансляции, а спектрограммы - нет. Обращение со спектрограммами как с изображениями может хорошо работать на практике, но следует помнить, что это не совсем одно и то же.`)},l(m){r=wt(m,`💡 Хотя здесь мы делаем вид, что спектрограммы - это то же самое, что и изображения, есть существенные различия. Например, смещение содержимого изображения вверх или вниз, как правило, не меняет смысла того, что на нем изображено. Однако смещение спектрограммы вверх или вниз приводит к
	изменению частот, присутствующих в звуке, и полностью меняет его характер. Изображения инвариантны при трансляции, а спектрограммы - нет. Обращение со спектрограммами как с изображениями может хорошо работать на практике, но следует помнить, что это не совсем одно и то же.`)},m(m,$){i(m,r,$)},d(m){m&&n(r)}}}function yt(N){let r,m,$,W,c,j,v,z,C,st=`Цель классификации аудио - предсказать метку класса для входного аудиосигнала. Модель может предсказать одну метку класса, охватывающую всю входную последовательность, или предсказать метку для каждого звукового фрейма - обычно каждые 20 миллисекунд входного звука - в этом случае вывод
	модели представляет собой последовательность вероятностей метки класса. Примером первого может служить определение того, какая птица издает тот или иной звук; примером второго - диаризация диктора, когда модель предсказывает, какой диктор говорит в тот или иной момент.`,R,T,D,x,pt="Один из самых простых способов классификации звука - представить, что это задача классификации изображения!",G,_,rt=`Напомним, что спектрограмма - это двумерный тензор формы <code>(частоты, длина последовательности)</code>. В <a href="../chapter1/audio_data">главе об аудио данных</a> мы строили эти спектрограммы в виде изображений. Угадайте, что? Мы можем буквально рассматривать спектрограмму как изображение и передавать ее в
	обычную модель классификатора CNN, например ResNet, и получать очень хорошие прогнозы. Еще лучше использовать модель трансформер для работы с изображениями, например ViT.`,I,d,ft=`Именно это и делает <strong>Трансформер Аудио Спектрограммы (Audio Spectrogram Transformer - AST)</strong>. Он использует модель ViT или Vision Transformer и передает ему на вход спектрограммы вместо обычных изображений. Благодаря слоям самовнимания трансформера модель лучше улавливает глобальный контекст,
	чем CNN.`,O,h,mt=`Как и ViT, модель AST разбивает спектрограмму звука на последовательность частично перекрывающихся фрагментов изображений размером 16×16 пикселей. Затем эта последовательность фрагментов проецируется в последовательность эмбдингов, которые, как обычно, подаются на вход энкодера трансформера.
	AST является моделью трансформера состоящей только из энкодера, поэтому на выходе получается последовательность скрытых состояний, по одному на каждый входной фрагмент 16×16. Сверху находится простой слой классификации с сигмоидальной активацией для отображения скрытых состояний в вероятности
	классификации.`,U,o,ot='<img src="https://huggingface.co/datasets/huggingface-course/audio-course-images/resolve/main/ast.png" alt="The audio spectrogram transformer works on a sequence of patches taken from the spectrogram"/>',B,g,ut='Изображение из статьи <a href="https://arxiv.org/pdf/2104.01778.pdf" rel="nofollow">AST: Трансформер аудио спектрограммы</a>',J,u,K,M,Q,H,$t=`В <a href="ctc">предыдущем материале</a> вы убедились, что CTC - это эффективная методика автоматического распознавания речи с использованием только трансформера состоящего только из энкодера. Такие CTC модели уже являются классификаторами, прогнозирующими вероятности для меток классов из словаря
	токенизатора. Мы можем взять модель CTC и превратить ее в классификатор звука общего назначения, изменив метки и обучив ее с помощью обычной функции потерь кросс-энтропии вместо специальной функции потерь CTC.`,X,L,ct="Например, в HF Transformers есть модель <code>Wav2Vec2ForCTC</code>, <code>Wav2Vec2ForSequenceClassification</code> и <code>Wav2Vec2ForAudioFrameClassification</code>. Различия между архитектурами этих моделей заключаются только в размере слоя классификации и используемой функции потерь.",Y,P,vt="Фактически, любая модель аудио трансформера состоящая только из энкодера, может быть превращена в классификатор аудиосигнала путем добавления слоя классификации поверх последовательности слоёв формирующих скрытые состояния. (Классификаторы обычно не нуждаются в декодере трансформера.)",Z,w,Ct="Для прогнозирования единой классификационной оценки для всей последовательности (<code>Wav2Vec2ForSequenceClassification</code>) модель берет среднее значение по скрытым состояниям и передает его в слой классификации. На выходе получается одно распределение вероятностей.",tt,b,Tt="Чтобы сделать отдельную классификацию для каждого аудио фрейма (<code>Wav2Vec2ForAudioFrameClassification</code>), классификатор запускается на последовательности скрытых состояний, поэтому выходом классификатора также является последовательность.",et,S,nt,k,it;return c=new St({props:{containerStyle:"float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"}}),v=new at({props:{title:"Архитектуры классификации аудио",local:"архитектуры-классификации-аудио",headingTag:"h1"}}),T=new at({props:{title:"Классификация с использованием спектрограмм",local:"классификация-с-использованием-спектрограмм",headingTag:"h2"}}),u=new bt({props:{$$slots:{default:[qt]},$$scope:{ctx:N}}}),M=new at({props:{title:"Любой трансформер может быть классификатором",local:"любой-трансформер-может-быть-классификатором",headingTag:"h2"}}),S=new Vt({props:{source:"https://github.com/huggingface/audio-transformers-course/blob/main/chapters/ru/chapter3/classification.mdx"}}),{c(){r=s("meta"),m=l(),$=s("p"),W=l(),V(c.$$.fragment),j=l(),V(v.$$.fragment),z=l(),C=s("p"),C.textContent=st,R=l(),V(T.$$.fragment),D=l(),x=s("p"),x.textContent=pt,G=l(),_=s("p"),_.innerHTML=rt,I=l(),d=s("p"),d.innerHTML=ft,O=l(),h=s("p"),h.textContent=mt,U=l(),o=s("div"),o.innerHTML=ot,B=l(),g=s("p"),g.innerHTML=ut,J=l(),V(u.$$.fragment),K=l(),V(M.$$.fragment),Q=l(),H=s("p"),H.innerHTML=$t,X=l(),L=s("p"),L.innerHTML=ct,Y=l(),P=s("p"),P.textContent=vt,Z=l(),w=s("p"),w.innerHTML=Ct,tt=l(),b=s("p"),b.innerHTML=Tt,et=l(),V(S.$$.fragment),nt=l(),k=s("p"),this.h()},l(t){const e=Ht("svelte-u9bgzb",document.head);r=p(e,"META",{name:!0,content:!0}),e.forEach(n),m=a(t),$=p(t,"P",{}),_t($).forEach(n),W=a(t),q(c.$$.fragment,t),j=a(t),q(v.$$.fragment,t),z=a(t),C=p(t,"P",{"data-svelte-h":!0}),f(C)!=="svelte-1clp769"&&(C.textContent=st),R=a(t),q(T.$$.fragment,t),D=a(t),x=p(t,"P",{"data-svelte-h":!0}),f(x)!=="svelte-1hrvpnb"&&(x.textContent=pt),G=a(t),_=p(t,"P",{"data-svelte-h":!0}),f(_)!=="svelte-1dhe3ic"&&(_.innerHTML=rt),I=a(t),d=p(t,"P",{"data-svelte-h":!0}),f(d)!=="svelte-513x5m"&&(d.innerHTML=ft),O=a(t),h=p(t,"P",{"data-svelte-h":!0}),f(h)!=="svelte-v4b765"&&(h.textContent=mt),U=a(t),o=p(t,"DIV",{class:!0,"data-svelte-h":!0}),f(o)!=="svelte-12cqizh"&&(o.innerHTML=ot),B=a(t),g=p(t,"P",{"data-svelte-h":!0}),f(g)!=="svelte-1pnoc0q"&&(g.innerHTML=ut),J=a(t),q(u.$$.fragment,t),K=a(t),q(M.$$.fragment,t),Q=a(t),H=p(t,"P",{"data-svelte-h":!0}),f(H)!=="svelte-1bk91fh"&&(H.innerHTML=$t),X=a(t),L=p(t,"P",{"data-svelte-h":!0}),f(L)!=="svelte-1pgqjly"&&(L.innerHTML=ct),Y=a(t),P=p(t,"P",{"data-svelte-h":!0}),f(P)!=="svelte-2r028p"&&(P.textContent=vt),Z=a(t),w=p(t,"P",{"data-svelte-h":!0}),f(w)!=="svelte-12gadkv"&&(w.innerHTML=Ct),tt=a(t),b=p(t,"P",{"data-svelte-h":!0}),f(b)!=="svelte-1vr61re"&&(b.innerHTML=Tt),et=a(t),q(S.$$.fragment,t),nt=a(t),k=p(t,"P",{}),_t(k).forEach(n),this.h()},h(){lt(r,"name","hf:doc:metadata"),lt(r,"content",At),lt(o,"class","flex justify-center")},m(t,e){Lt(document.head,r),i(t,m,e),i(t,$,e),i(t,W,e),y(c,t,e),i(t,j,e),y(v,t,e),i(t,z,e),i(t,C,e),i(t,R,e),y(T,t,e),i(t,D,e),i(t,x,e),i(t,G,e),i(t,_,e),i(t,I,e),i(t,d,e),i(t,O,e),i(t,h,e),i(t,U,e),i(t,o,e),i(t,B,e),i(t,g,e),i(t,J,e),y(u,t,e),i(t,K,e),y(M,t,e),i(t,Q,e),i(t,H,e),i(t,X,e),i(t,L,e),i(t,Y,e),i(t,P,e),i(t,Z,e),i(t,w,e),i(t,tt,e),i(t,b,e),i(t,et,e),y(S,t,e),i(t,nt,e),i(t,k,e),it=!0},p(t,[e]){const xt={};e&2&&(xt.$$scope={dirty:e,ctx:t}),u.$set(xt)},i(t){it\|\|(A(c.$$.fragment,t),A(v.$$.fragment,t),A(T.$$.fragment,t),A(u.$$.fragment,t),A(M.$$.fragment,t),A(S.$$.fragment,t),it=!0)},o(t){F(c.$$.fragment,t),F(v.$$.fragment,t),F(T.$$.fragment,t),F(u.$$.fragment,t),F(M.$$.fragment,t),F(S.$$.fragment,t),it=!1},d(t){t&&(n(m),n($),n(W),n(j),n(z),n(C),n(R),n(D),n(x),n(G),n(_),n(I),n(d),n(O),n(h),n(U),n(o),n(B),n(g),n(J),n(K),n(Q),n(H),n(X),n(L),n(Y),n(P),n(Z),n(w),n(tt),n(b),n(et),n(nt),n(k)),n(r),E(c,t),E(v,t),E(T,t),E(u,t),E(M,t),E(S,t)}}}const At='{"title":"Архитектуры классификации аудио","local":"архитектуры-классификации-аудио","sections":[{"title":"Классификация с использованием спектрограмм","local":"классификация-с-использованием-спектрограмм","sections":[],"depth":2},{"title":"Любой трансформер может быть классификатором","local":"любой-трансформер-может-быть-классификатором","sections":[],"depth":2}],"depth":1}';function Ft(N){return ht(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class jt extends gt{constructor(r){super(),Mt(this,r,Ft,yt,dt,{})}}export{jt as component};

Xet Storage Details

Size:: 14.2 kB
Xet hash:: be215746c28d47a7ca122b9217a2eb31e627319625215a8ec754355a74b0fa68

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.