MM_LLM - a sam2ai Collection

sam2ai 's Collections

erase_image_add_image

segment_anything

Llm_long_context

Text_trajectory_videogen

MM_LLM

updated Dec 20, 2023

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Paper • 2308.01390 • Published Aug 2, 2023 • 34
Med-Flamingo: a Multimodal Medical Few-shot Learner

Paper • 2307.15189 • Published Jul 27, 2023 • 24
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Paper • 2307.08581 • Published Jul 17, 2023 • 29
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Paper • 2307.03601 • Published Jul 7, 2023 • 13
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

Paper • 2306.16410 • Published Jun 28, 2023 • 29
ImageBind-LLM: Multi-modality Instruction Tuning

Paper • 2309.03905 • Published Sep 7, 2023 • 17
NExT-GPT: Any-to-Any Multimodal LLM

Paper • 2309.05519 • Published Sep 11, 2023 • 79
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Paper • 2311.05698 • Published Nov 9, 2023 • 11
CogAgent: A Visual Language Model for GUI Agents

Paper • 2312.08914 • Published Dec 14, 2023 • 32
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Paper • 2312.03818 • Published Dec 6, 2023 • 34