Buckets:
| import{s as dt,o as ht}from"../chunks/scheduler.cd324960.js";import{S as gt,i as Mt,e as s,s as l,c as V,h as Ht,a as p,d as n,b as a,f as _t,g as q,j as f,k as lt,l as Lt,m as i,n as y,t as A,o as F,p as E,q as Pt,r as wt}from"../chunks/index.d5c3adcc.js";import{T as bt}from"../chunks/Tip.889bec11.js";import{C as St,H as at,E as Vt}from"../chunks/MermaidChart.svelte_svelte_type_style_lang.145cba0d.js";function qt(N){let r;return{c(){r=Pt(`💡 Хотя здесь мы делаем вид, что спектрограммы - это то же самое, что и изображения, есть существенные различия. Например, смещение содержимого изображения вверх или вниз, как правило, не меняет смысла того, что на нем изображено. Однако смещение спектрограммы вверх или вниз приводит к | |
| изменению частот, присутствующих в звуке, и полностью меняет его характер. Изображения инвариантны при трансляции, а спектрограммы - нет. Обращение со спектрограммами как с изображениями может хорошо работать на практике, но следует помнить, что это не совсем одно и то же.`)},l(m){r=wt(m,`💡 Хотя здесь мы делаем вид, что спектрограммы - это то же самое, что и изображения, есть существенные различия. Например, смещение содержимого изображения вверх или вниз, как правило, не меняет смысла того, что на нем изображено. Однако смещение спектрограммы вверх или вниз приводит к | |
| изменению частот, присутствующих в звуке, и полностью меняет его характер. Изображения инвариантны при трансляции, а спектрограммы - нет. Обращение со спектрограммами как с изображениями может хорошо работать на практике, но следует помнить, что это не совсем одно и то же.`)},m(m,$){i(m,r,$)},d(m){m&&n(r)}}}function yt(N){let r,m,$,W,c,j,v,z,C,st=`Цель классификации аудио - предсказать метку класса для входного аудиосигнала. Модель может предсказать одну метку класса, охватывающую всю входную последовательность, или предсказать метку для каждого звукового фрейма - обычно каждые 20 миллисекунд входного звука - в этом случае вывод | |
| модели представляет собой последовательность вероятностей метки класса. Примером первого может служить определение того, какая птица издает тот или иной звук; примером второго - диаризация диктора, когда модель предсказывает, какой диктор говорит в тот или иной момент.`,R,T,D,x,pt="Один из самых простых способов классификации звука - представить, что это задача классификации изображения!",G,_,rt=`Напомним, что спектрограмма - это двумерный тензор формы <code>(частоты, длина последовательности)</code>. В <a href="../chapter1/audio_data">главе об аудио данных</a> мы строили эти спектрограммы в виде изображений. Угадайте, что? Мы можем буквально рассматривать спектрограмму как изображение и передавать ее в | |
| обычную модель классификатора CNN, например ResNet, и получать очень хорошие прогнозы. Еще лучше использовать модель трансформер для работы с изображениями, например ViT.`,I,d,ft=`Именно это и делает <strong>Трансформер Аудио Спектрограммы (Audio Spectrogram Transformer - AST)</strong>. Он использует модель ViT или Vision Transformer и передает ему на вход спектрограммы вместо обычных изображений. Благодаря слоям самовнимания трансформера модель лучше улавливает глобальный контекст, | |
| чем CNN.`,O,h,mt=`Как и ViT, модель AST разбивает спектрограмму звука на последовательность частично перекрывающихся фрагментов изображений размером 16×16 пикселей. Затем эта последовательность фрагментов проецируется в последовательность эмбдингов, которые, как обычно, подаются на вход энкодера трансформера. | |
| AST является моделью трансформера состоящей только из энкодера, поэтому на выходе получается последовательность скрытых состояний, по одному на каждый входной фрагмент 16×16. Сверху находится простой слой классификации с сигмоидальной активацией для отображения скрытых состояний в вероятности | |
| классификации.`,U,o,ot='<img src="https://huggingface.co/datasets/huggingface-course/audio-course-images/resolve/main/ast.png" alt="The audio spectrogram transformer works on a sequence of patches taken from the spectrogram"/>',B,g,ut='Изображение из статьи <a href="https://arxiv.org/pdf/2104.01778.pdf" rel="nofollow">AST: Трансформер аудио спектрограммы</a>',J,u,K,M,Q,H,$t=`В <a href="ctc">предыдущем материале</a> вы убедились, что CTC - это эффективная методика автоматического распознавания речи с использованием только трансформера состоящего только из энкодера. Такие CTC модели уже являются классификаторами, прогнозирующими вероятности для меток классов из словаря | |
| токенизатора. Мы можем взять модель CTC и превратить ее в классификатор звука общего назначения, изменив метки и обучив ее с помощью обычной функции потерь кросс-энтропии вместо специальной функции потерь CTC.`,X,L,ct="Например, в HF Transformers есть модель <code>Wav2Vec2ForCTC</code>, <code>Wav2Vec2ForSequenceClassification</code> и <code>Wav2Vec2ForAudioFrameClassification</code>. Различия между архитектурами этих моделей заключаются только в размере слоя классификации и используемой функции потерь.",Y,P,vt="Фактически, любая модель аудио трансформера состоящая только из энкодера, может быть превращена в классификатор аудиосигнала путем добавления слоя классификации поверх последовательности слоёв формирующих скрытые состояния. (Классификаторы обычно не нуждаются в декодере трансформера.)",Z,w,Ct="Для прогнозирования единой классификационной оценки для всей последовательности (<code>Wav2Vec2ForSequenceClassification</code>) модель берет среднее значение по скрытым состояниям и передает его в слой классификации. На выходе получается одно распределение вероятностей.",tt,b,Tt="Чтобы сделать отдельную классификацию для каждого аудио фрейма (<code>Wav2Vec2ForAudioFrameClassification</code>), классификатор запускается на последовательности скрытых состояний, поэтому выходом классификатора также является последовательность.",et,S,nt,k,it;return c=new St({props:{containerStyle:"float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"}}),v=new at({props:{title:"Архитектуры классификации аудио",local:"архитектуры-классификации-аудио",headingTag:"h1"}}),T=new at({props:{title:"Классификация с использованием спектрограмм",local:"классификация-с-использованием-спектрограмм",headingTag:"h2"}}),u=new bt({props:{$$slots:{default:[qt]},$$scope:{ctx:N}}}),M=new at({props:{title:"Любой трансформер может быть классификатором",local:"любой-трансформер-может-быть-классификатором",headingTag:"h2"}}),S=new Vt({props:{source:"https://github.com/huggingface/audio-transformers-course/blob/main/chapters/ru/chapter3/classification.mdx"}}),{c(){r=s("meta"),m=l(),$=s("p"),W=l(),V(c.$$.fragment),j=l(),V(v.$$.fragment),z=l(),C=s("p"),C.textContent=st,R=l(),V(T.$$.fragment),D=l(),x=s("p"),x.textContent=pt,G=l(),_=s("p"),_.innerHTML=rt,I=l(),d=s("p"),d.innerHTML=ft,O=l(),h=s("p"),h.textContent=mt,U=l(),o=s("div"),o.innerHTML=ot,B=l(),g=s("p"),g.innerHTML=ut,J=l(),V(u.$$.fragment),K=l(),V(M.$$.fragment),Q=l(),H=s("p"),H.innerHTML=$t,X=l(),L=s("p"),L.innerHTML=ct,Y=l(),P=s("p"),P.textContent=vt,Z=l(),w=s("p"),w.innerHTML=Ct,tt=l(),b=s("p"),b.innerHTML=Tt,et=l(),V(S.$$.fragment),nt=l(),k=s("p"),this.h()},l(t){const e=Ht("svelte-u9bgzb",document.head);r=p(e,"META",{name:!0,content:!0}),e.forEach(n),m=a(t),$=p(t,"P",{}),_t($).forEach(n),W=a(t),q(c.$$.fragment,t),j=a(t),q(v.$$.fragment,t),z=a(t),C=p(t,"P",{"data-svelte-h":!0}),f(C)!=="svelte-1clp769"&&(C.textContent=st),R=a(t),q(T.$$.fragment,t),D=a(t),x=p(t,"P",{"data-svelte-h":!0}),f(x)!=="svelte-1hrvpnb"&&(x.textContent=pt),G=a(t),_=p(t,"P",{"data-svelte-h":!0}),f(_)!=="svelte-1dhe3ic"&&(_.innerHTML=rt),I=a(t),d=p(t,"P",{"data-svelte-h":!0}),f(d)!=="svelte-513x5m"&&(d.innerHTML=ft),O=a(t),h=p(t,"P",{"data-svelte-h":!0}),f(h)!=="svelte-v4b765"&&(h.textContent=mt),U=a(t),o=p(t,"DIV",{class:!0,"data-svelte-h":!0}),f(o)!=="svelte-12cqizh"&&(o.innerHTML=ot),B=a(t),g=p(t,"P",{"data-svelte-h":!0}),f(g)!=="svelte-1pnoc0q"&&(g.innerHTML=ut),J=a(t),q(u.$$.fragment,t),K=a(t),q(M.$$.fragment,t),Q=a(t),H=p(t,"P",{"data-svelte-h":!0}),f(H)!=="svelte-1bk91fh"&&(H.innerHTML=$t),X=a(t),L=p(t,"P",{"data-svelte-h":!0}),f(L)!=="svelte-1pgqjly"&&(L.innerHTML=ct),Y=a(t),P=p(t,"P",{"data-svelte-h":!0}),f(P)!=="svelte-2r028p"&&(P.textContent=vt),Z=a(t),w=p(t,"P",{"data-svelte-h":!0}),f(w)!=="svelte-12gadkv"&&(w.innerHTML=Ct),tt=a(t),b=p(t,"P",{"data-svelte-h":!0}),f(b)!=="svelte-1vr61re"&&(b.innerHTML=Tt),et=a(t),q(S.$$.fragment,t),nt=a(t),k=p(t,"P",{}),_t(k).forEach(n),this.h()},h(){lt(r,"name","hf:doc:metadata"),lt(r,"content",At),lt(o,"class","flex justify-center")},m(t,e){Lt(document.head,r),i(t,m,e),i(t,$,e),i(t,W,e),y(c,t,e),i(t,j,e),y(v,t,e),i(t,z,e),i(t,C,e),i(t,R,e),y(T,t,e),i(t,D,e),i(t,x,e),i(t,G,e),i(t,_,e),i(t,I,e),i(t,d,e),i(t,O,e),i(t,h,e),i(t,U,e),i(t,o,e),i(t,B,e),i(t,g,e),i(t,J,e),y(u,t,e),i(t,K,e),y(M,t,e),i(t,Q,e),i(t,H,e),i(t,X,e),i(t,L,e),i(t,Y,e),i(t,P,e),i(t,Z,e),i(t,w,e),i(t,tt,e),i(t,b,e),i(t,et,e),y(S,t,e),i(t,nt,e),i(t,k,e),it=!0},p(t,[e]){const xt={};e&2&&(xt.$$scope={dirty:e,ctx:t}),u.$set(xt)},i(t){it||(A(c.$$.fragment,t),A(v.$$.fragment,t),A(T.$$.fragment,t),A(u.$$.fragment,t),A(M.$$.fragment,t),A(S.$$.fragment,t),it=!0)},o(t){F(c.$$.fragment,t),F(v.$$.fragment,t),F(T.$$.fragment,t),F(u.$$.fragment,t),F(M.$$.fragment,t),F(S.$$.fragment,t),it=!1},d(t){t&&(n(m),n($),n(W),n(j),n(z),n(C),n(R),n(D),n(x),n(G),n(_),n(I),n(d),n(O),n(h),n(U),n(o),n(B),n(g),n(J),n(K),n(Q),n(H),n(X),n(L),n(Y),n(P),n(Z),n(w),n(tt),n(b),n(et),n(nt),n(k)),n(r),E(c,t),E(v,t),E(T,t),E(u,t),E(M,t),E(S,t)}}}const At='{"title":"Архитектуры классификации аудио","local":"архитектуры-классификации-аудио","sections":[{"title":"Классификация с использованием спектрограмм","local":"классификация-с-использованием-спектрограмм","sections":[],"depth":2},{"title":"Любой трансформер может быть классификатором","local":"любой-трансформер-может-быть-классификатором","sections":[],"depth":2}],"depth":1}';function Ft(N){return ht(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class jt extends gt{constructor(r){super(),Mt(this,r,Ft,yt,dt,{})}}export{jt as component}; | |
Xet Storage Details
- Size:
- 14.2 kB
- Xet hash:
- be215746c28d47a7ca122b9217a2eb31e627319625215a8ec754355a74b0fa68
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.