bu modeller ne ola?

#1
by edsseds - opened

bu modeller ne ola?

Transformers'ın context size'In 2 katına çıktığı zaman ki o KARESEL artan işlem gücünü hafifletmek için, kendi geliştirdiğim bir mimari.

işe yarıyo mu

şuanlık evet. transformers işlem gücünü TAM yok etmiyor, çünkü içinde hala attention katmanları var ancak 8 kat kadar işlem gücünden tasarruf ettirebiliyor. hala test ediyorum, yeni mimariler deniyorum.

Sign up or log in to comment