Audio-Visual-LM - a oguzhanercan Collection

oguzhanercan 's Collections

Audio-Visual-LM

3D Scene Generation

Domain Adaptation

Finetuning Strategies

Embedding Space İnterpretability

MultiModal Reasoning

Transformer Optimization / LLM & VLLM etc

Large Language Models

Auto Regressive Image Generation

Diffusion Language&MultiModal Modeling

Vision Reasoning

Subject Driven Generation Control

Representation Learning

Scene Generation

Training Theory

Image-Text Alignment

Control Based Video Generation Models

Video Generation Backbone Models

Video Generation Style Models

Image-Video General Tasks

Generation Quality Enhancement

Diffusion/Flow Model Optimization

Mobile Generative Models

Video Generation Control-Style Transfer

Diffusion-Score-Flow Guidance

Image Restoration (SR , Inpainting etc.)

Image-Video MultiModal Understanding

Face Generation-Swap-Contol-Edit

Architectural Proposals

Generative Modeling Approachs

Video Generation

Diffusion Model Control

Image Generation

Audio-Visual-LM

updated about 4 hours ago

Do Audio-Visual Large Language Models Really See and Hear?

Paper • 2604.02605 • Published Apr 3 • 7