bu modeller ne ola?
#1
by edsseds - opened
bu modeller ne ola?
Transformers'ın context size'In 2 katına çıktığı zaman ki o KARESEL artan işlem gücünü hafifletmek için, kendi geliştirdiğim bir mimari.
işe yarıyo mu
şuanlık evet. transformers işlem gücünü TAM yok etmiyor, çünkü içinde hala attention katmanları var ancak 8 kat kadar işlem gücünden tasarruf ettirebiliyor. hala test ediyorum, yeni mimariler deniyorum.
güzel