ESM [[esm]]
๊ฐ์ [[overview]]
์ด ํ์ด์ง๋ Meta AI์ Fundamental AI Research ํ์์ ์ ๊ณตํ๋ Transformer ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ ๋ํ ์ฝ๋์ ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ฌ๊ธฐ์๋ ์ต์ฒจ๋จ์ธ ESMFold์ ESM-2, ๊ทธ๋ฆฌ๊ณ ์ด์ ์ ๊ณต๊ฐ๋ ESM-1b์ ESM-1v๊ฐ ํฌํจ๋ฉ๋๋ค. Transformer ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, Rob Fergus์ ๋ ผ๋ฌธ Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences์์ ์๊ฐ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฒซ ๋ฒ์งธ ๋ฒ์ ์ 2019๋ ์ ์ถํ ์ ๋ ผ๋ฌธ ํํ๋ก ๊ณต๊ฐ๋์์ต๋๋ค.
ESM-2๋ ๋ค์ํ ๊ตฌ์กฐ ์์ธก ์์ ์์ ํ ์คํธ๋ ๋ชจ๋ ๋จ์ผ ์ํ์ค ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ์์ ์์ค์ ๊ตฌ์กฐ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Sal Candido, Alexander Rives์ ๋ ผ๋ฌธ Language models of protein sequences at the scale of evolution enable accurate structure prediction์์ ๊ณต๊ฐ๋์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์ ํจ๊ป ์๊ฐ๋ ESMFold๋ ESM-2 ์คํ ์ ์ฌ์ฉํ๋ฉฐ, ์ต์ฒจ๋จ์ ์ ํ๋๋ก ๋จ๋ฐฑ์ง ์ ํ ๊ตฌ์กฐ๋ฅผ ์์ธกํ ์ ์๋ ํค๋๋ฅผ ๊ฐ์ถ๊ณ ์์ต๋๋ค. AlphaFold2์ ๋ฌ๋ฆฌ, ์ด๋ ๋ํ ์ฌ์ ํ๋ จ๋ ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ ์คํ ์ ํ ํฐ ์๋ฒ ๋ฉ์ ์์กดํ๋ฉฐ, ์ถ๋ก ์ ๋ค์ค ์ํ์ค ์ ๋ ฌ(MSA) ๋จ๊ณ๋ฅผ ์ํํ์ง ์์ต๋๋ค. ์ด๋ ESMFold ์ฒดํฌํฌ์ธํธ๊ฐ ์์ ํ "๋ ๋ฆฝ์ "์ด๋ฉฐ, ์์ธก์ ์ํด ์๋ ค์ง ๋จ๋ฐฑ์ง ์ํ์ค์ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ๊ทธ๋ฆฌ๊ณ ๊ทธ์ ๊ด๋ จ ์ธ๋ถ ์ฟผ๋ฆฌ ๋๊ตฌ๋ฅผ ํ์๋ก ํ์ง ์๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ฒฐ๊ณผ, ํจ์ฌ ๋น ๋ฆ ๋๋ค.
"Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences"์ ์ด๋ก์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ธ๊ณต์ง๋ฅ ๋ถ์ผ์์๋ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ์ฉ๋์ ๊ฐ์ถ ๋น์ง๋ ํ์ต์ ์กฐํฉ์ด ํํ ํ์ต๊ณผ ํต๊ณ์ ์์ฑ์์ ์ฃผ์ํ ๋ฐ์ ์ ์ด๋์ด๋์ต๋๋ค. ์๋ช ๊ณผํ์์๋ ์ํ์ฑ ๊ธฐ์ ์ ์ฑ์ฅ์ด ์์๋๋ฉฐ, ์์ฐ ์ํ์ค ๋ค์์ฑ์ ๋ํ ์ ๋ก ์๋ ๋ฐ์ดํฐ๊ฐ ๋์ฌ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์งํ์ ๋จ๊ณ์์ ๋ณผ ๋, ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ๋ง์ ์๋ฌผํ์ ์ํ ์์ธก ๋ฐ ์์ฑ ์ธ๊ณต์ง๋ฅ์ ํฅํ ๋ ผ๋ฆฌ์ ์ธ ๋จ๊ณ์ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๋ฆฌ๋ ์งํ์ ๋ค์์ฑ์ ์์ฐ๋ฅด๋ 2์ต 5์ฒ๋ง ๊ฐ์ ๋จ๋ฐฑ์ง ์ํ์ค์์ ์ถ์ถํ 860์ต ๊ฐ์ ์๋ฏธ๋ ธ์ฐ์ ๋ํด ์ฌ์ธต ์ปจํ ์คํธ ์ธ์ด ๋ชจ๋ธ์ ๋น์ง๋ ํ์ต์ผ๋ก ํ๋ จํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ๊ทธ ํํ์์ ์๋ฌผํ์ ์์ฑ์ ๋ํ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค. ์ด ํํ์ ์ํ์ค ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ฉ๋๋ค. ํ์ต๋ ํํ ๊ณต๊ฐ์ ์๋ฏธ๋ ธ์ฐ์ ์ํํ์ ํน์ฑ ์์ค์์๋ถํฐ ๋จ๋ฐฑ์ง์ ์๊ฑฐ๋ฆฌ ์๋์ฑ๊น์ง ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ๋ ๋ค์ค ๊ท๋ชจ์ ์กฐ์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด ํํ์๋ 2์ฐจ ๋ฐ 3์ฐจ ๊ตฌ์กฐ์ ๋ํ ์ ๋ณด๊ฐ ์ธ์ฝ๋ฉ๋์ด ์์ผ๋ฉฐ, ์ ํ ์ ์ฌ์ ์ํด ์๋ณ ๋ ์ ์์ต๋๋ค. ํํ ํ์ต์ ๋์ฐ๋ณ์ด์ ์ํ ํจ๊ณผ์ 2์ฐจ ๊ตฌ์กฐ์ ์ต์ฒจ๋จ ์ง๋ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ๋์ ๋ฒ์์ ์ ์ด ๋ถ์ ์์ธก์ ์ํ ์ต์ฒจ๋จ ํน์ง์ ํฅ์์ํต๋๋ค.
"Language models of protein sequences at the scale of evolution enable accurate structure prediction"์ ์ด๋ก์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ต๊ทผ ๊ท๋ชจ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๊ธด๊ธํ ๊ธฐ๋ฅ์ ๊ฐ๋ฐํ์ฌ ๋จ์ํ ํจํด ๋งค์นญ์ ๋์ด ๋ ๋์ ์์ค์ ์ถ๋ก ์ ์ํํ๊ณ ์์ํ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ ์์ ๊ท๋ชจ์์ ํ๋ จ๋ ๋จ๋ฐฑ์ง ์ํ์ค์ ์ธ์ด ๋ชจ๋ธ์ด ์ฐ๊ตฌ๋์์ง๋ง, ๊ทธ๋ค์ด ๊ท๋ชจ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ์๋ฌผํ์ ๋ํด ๋ฌด์์ ๋ฐฐ์ฐ๋์ง๋ ๊ฑฐ์ ์๋ ค์ ธ ์์ง ์์ต๋๋ค. ์ด ์ฐ๊ตฌ์์ ์ฐ๋ฆฌ๋ ํ์ฌ๊น์ง ํ๊ฐ๋ ๊ฐ์ฅ ํฐ 150์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ๊ท๋ชจ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๋จ์ผ ์๋ฏธ๋ ธ์ฐ์ ํด์๋๋ก ๋จ๋ฐฑ์ง์ 3์ฐจ์ ๊ตฌ์กฐ๋ฅผ ์์ธกํ ์ ์๋ ์ ๋ณด๋ฅผ ํ์ตํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ฐ๋ฆฌ๋ ๊ฐ๋ณ ๋จ๋ฐฑ์ง ์ํ์ค๋ก๋ถํฐ ์ง์ ๊ณ ์ ๋ฐ ์์ ์์ค์ ์๋-ํฌ-์๋ ๊ตฌ์กฐ ์์ธก์ ํ๊ธฐ ์ํ ESMFold๋ฅผ ์ ์ํฉ๋๋ค. ESMFold๋ ์ธ์ด ๋ชจ๋ธ์ ์ ์ดํด๋๋ ๋ฎ์ ํผํ๋ ์ํฐ๋ฅผ ๊ฐ์ง ์ํ์ค์ ๋ํด AlphaFold2์ RoseTTAFold์ ์ ์ฌํ ์ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ESMFold์ ์ถ๋ก ์ AlphaFold2๋ณด๋ค ํ ์๋ฆฟ์ ๋น ๋ฅด๋ฉฐ, ๋ฉํ๊ฒ๋ ๋จ๋ฐฑ์ง์ ๊ตฌ์กฐ์ ๊ณต๊ฐ์ ์ค์ฉ์ ์ธ ์๊ฐ ๋ด์ ํ์ํ ์ ์๊ฒ ํฉ๋๋ค.
์๋ณธ ์ฝ๋๋ ์ฌ๊ธฐ์์ ์ฐพ์ ์ ์์ผ๋ฉฐ, Meta AI์ Fundamental AI Research ํ์์ ๊ฐ๋ฐ๋์์ต๋๋ค. ESM-1b, ESM-1v, ESM-2๋ jasonliu์ Matt์ ์ํด HuggingFace์ ๊ธฐ์ฌ๋์์ต๋๋ค.
ESMFold๋ Matt์ Sylvain์ ์ํด HuggingFace์ ๊ธฐ์ฌ๋์์ผ๋ฉฐ, ์ด ๊ณผ์ ์์ ๋ง์ ๋์์ ์ค Nikita Smetanin, Roshan Rao, Tom Sercu์๊ฒ ํฐ ๊ฐ์ฌ๋ฅผ ๋๋ฆฝ๋๋ค!
์ฌ์ฉ ํ [[usage-tips]]
- ESM ๋ชจ๋ธ์ ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง(MLM) ๋ชฉํ๋ก ํ๋ จ๋์์ต๋๋ค.
- HuggingFace์ ESMFold ํฌํธ๋ openfold ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ผ๋ถ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
openfold๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ Apache License 2.0์ ๋ฐ๋ผ ๋ผ์ด์ ์ค๊ฐ ๋ถ์ฌ๋ฉ๋๋ค.
๋ฆฌ์์ค [[resources]]
- ํ ์คํธ ๋ถ๋ฅ ์์ ๊ฐ์ด๋
- ํ ํฐ ๋ถ๋ฅ ์์ ๊ฐ์ด๋
- ๋ง์คํน๋ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ๊ฐ์ด๋
EsmConfig [[transformers.EsmConfig]]
[[autodoc]] EsmConfig - all
EsmTokenizer [[transformers.EsmTokenizer]]
[[autodoc]] EsmTokenizer - build_inputs_with_special_tokens - get_special_tokens_mask - create_token_type_ids_from_sequences - save_vocabulary
EsmModel [[transformers.EsmModel]]
[[autodoc]] EsmModel - forward
EsmForMaskedLM [[transformers.EsmForMaskedLM]]
[[autodoc]] EsmForMaskedLM - forward
EsmForSequenceClassification [[transformers.EsmForSequenceClassification]]
[[autodoc]] EsmForSequenceClassification - forward
EsmForTokenClassification [[transformers.EsmForTokenClassification]]
[[autodoc]] EsmForTokenClassification - forward
EsmForProteinFolding [[transformers.EsmForProteinFolding]]
[[autodoc]] EsmForProteinFolding - forward
TFEsmModel [[transformers.TFEsmModel]]
[[autodoc]] TFEsmModel - call
TFEsmForMaskedLM [[transformers.TFEsmForMaskedLM]]
[[autodoc]] TFEsmForMaskedLM - call
TFEsmForSequenceClassification [[transformers.TFEsmForSequenceClassification]]
[[autodoc]] TFEsmForSequenceClassification - call
TFEsmForTokenClassification [[transformers.TFEsmForTokenClassification]]
[[autodoc]] TFEsmForTokenClassification - call