LucasFang
/

GoT-6B

PyTorch

Model card Files Files and versions

xet

Community

LucasFang commited on Mar 13, 2025

Commit

1168402

verified ·

1 Parent(s): 73ad092

Update README.md

Browse files

Files changed (1) hide show

README.md +2 -19

README.md CHANGED Viewed

@@ -1,14 +1,10 @@
 # GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
 <div align="center">
-<a href="https://rongyaofang.github.io/"><img src="https://img.shields.io/badge/Project-Homepage-green" alt="Home"></a>
-<a href="https://arxiv.org/abs/xxxx"><img src="https://img.shields.io/badge/ArXiv-xxxx-red"></a>
-<img src="https://visitor-badge.laobi.icu/badge?page_id=rongyaofang/GoT" alt="visitors">
-[Rongyao Fang](https://scholar.google.com/citations?user=FtH3CW4AAAAJ&hl=en)<sup>1\*</sup>, [Chengqi Duan](https://scholar.google.com/citations?user=r9qb4ZwAAAAJ&hl=zh-CN)<sup>2\*</sup>, [Kun Wang]()<sup>3</sup>, [Linjiang Huang](https://leonhlj.github.io/)<sup>6</sup>, [Hao Li](https://scholar.google.com/citations?user=qHqQsY4AAAAJ&hl=zh-CN)<sup>1,4</sup>, [Shilin Yan](https://scholar.google.com/citations?user=2VhjOykAAAAJ&hl=zh-CN), [Hao Tian]()<sup>3</sup>, [Xingyu Zeng]()<sup>3</sup>, [Rui Zhao]()<sup>3</sup>, [Jifeng Dai](https://jifengdai.org/)<sup>4,5</sup>, [Xihui Liu](https://xh-liu.github.io/)<sup>2 :envelope:</sup>, [Hongsheng Li](https://www.ee.cuhk.edu.hk/~hsli/)<sup>1 :envelope:</sup>
 <sup>1</sup>CUHK MMLab, <sup>2</sup>HKU MMLab, <sup>3</sup>SenseTime, <sup>4</sup>Shanghai AI Laboratory, <sup>5</sup>Tsinghua University, <sup>6</sup>Beihang University
-*Equal contribution, :envelope:Corresponding authors
 </div>
 <div align="center" style="line-height: 1.2;">
@@ -110,19 +106,6 @@ Our approach also demonstrates superior performance on image editing benchmarks:
 </div>
-### Interactive Generation
-One of the unique capabilities of GoT is interactive generation, allowing users to modify the reasoning chain to customize the generated images:
-<div align="center">
-  <img src="figures/interactive.png" width="100%" alt="Interactive Generation" />
-</div>
-Users can interact with the reasoning chain to:
-1. Replace objects
-2. Adjust object positions
-3. Modify object attributes
 ## Usage
 ### Dependencies

 # GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
 <div align="center">
+[Rongyao Fang](https://scholar.google.com/citations?user=FtH3CW4AAAAJ&hl=en)<sup>1\*</sup>, [Chengqi Duan](https://scholar.google.com/citations?user=r9qb4ZwAAAAJ&hl=zh-CN)<sup>2\*</sup>, [Kun Wang]()<sup>3</sup>, [Linjiang Huang](https://leonhlj.github.io/)<sup>6</sup>, [Hao Li](https://scholar.google.com/citations?user=qHqQsY4AAAAJ&hl=zh-CN)<sup>1,4</sup>, [Shilin Yan](https://scholar.google.com/citations?user=2VhjOykAAAAJ&hl=zh-CN), [Hao Tian]()<sup>3</sup>, [Xingyu Zeng]()<sup>3</sup>, [Rui Zhao]()<sup>3</sup>, [Jifeng Dai](https://jifengdai.org/)<sup>4,5</sup>, [Xihui Liu](https://xh-liu.github.io/)<sup>2</sup>, [Hongsheng Li](https://www.ee.cuhk.edu.hk/~hsli/)<sup>1</sup>
 <sup>1</sup>CUHK MMLab, <sup>2</sup>HKU MMLab, <sup>3</sup>SenseTime, <sup>4</sup>Shanghai AI Laboratory, <sup>5</sup>Tsinghua University, <sup>6</sup>Beihang University
+*Equal contribution
 </div>
 <div align="center" style="line-height: 1.2;">
 </div>
 ## Usage
 ### Dependencies