LLM Multimodal Highlights

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Sangyun Chung, Se Yeon Kim, Youngchae Chee, and Yong Man Ro

CVPR 2026 / Code / Demo

Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee*, Youngchae Chee*, Yong Man Ro (*equal contribution)

CVPR 2026 Findings / Project Page / Demo

ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee*, Junho Kim*, Hyunjun Kim, Yong Man Ro (*equal contribution)

CVPR 2026 Findings

Robust Grounding with MLLMs against Occlusion and Small Objects via Language-Guided Semantic Cues

Beomchan Park*, Seongho Kim*, Hyunjun Kim, Sungjune Park, Yong Man Ro (*equal contribution)

ICASSP 2026

A Causal Lens on Non-RGB Vision Sensor Understanding in Vision Language Models

Youngjoon Yu, Yong Man Ro

IEEE Transactions on Image Processing

Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier

Hyeongseop Rha, Jeong Hun Yeo, KIM YEONJU, Yong Man Ro

AAAI 2026

Unified Reinforcement and Imitation Learning for Vision-Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Frank Wang, Yueh-Hua Wu

NeurIPS 2025 / Project Page

Adaptive Integration of Textual Context and Visual Embeddings for Underrepresented Vision Classification

Seongyeop Kim, Hyung-Il Kim, Yong Man Ro

Pattern Recognition

Closing the Modality Gap: Integrating LLMs with LiDAR for 3D Object Detection and Object-level Understanding

Youngchae Chee, Taeheon Kim, Youngjoon Yu, HyunWook Park, and Yong Man Ro

ICIP 2025

Focus Where It Matters: LLM-Guided Regional Identification for Instruction-based Image Editing

Minho Park, Young Joo Jo, Jae-Hyeok Lee, Ji Yong Lee, Dong-oh Kang, Yong Man Ro

ACM MM 2025

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro

ICCV 2025 / Code

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens

Jeong Hun Yeo, Hyeongseop Rha, Se Jin Park, Yong Man Ro

ACL 2025 / Code

Long-Form Speech Generation with Spoken Language Models

Se Jin Park, Julian Salazar, Aren Jansen, Keisuke Kinoshita, Yong Man Ro, RJ Skerry-Ryan

ICML 2025 Oral (~1%)

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Junho Kim*, Hyunjun Kim*, Hosu Lee, Yong Man Ro (* equal contribution)

CVPR 2025 / Dataset

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

Jeong Hun Yeo, Chae Won Kim, Hyunjun Kim, Hyeongseop Rha, Seunghee Han, Wen-Huang Cheng, Yong Man Ro

AAAI 2025 / Code

SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Youngjoon Yu*, Sangyun Chung*, Byung-Kwan Lee, Yong Man Ro (* equal contribution)

Arxiv Preprint

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

CVPR 2025 / Demo

Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion

Taeheon Kim*, Sangyun Chung*, Youngjoon Yu*, Yong Man Ro (* equal contribution)

IEEE ICIP 2024

Phantom: Traversal of Layers for Large Language and Vision Models

Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

Arxiv Preprint

CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models

Junho Kim*, Hyunjun Kim*, Yeonju Kim, Yong Man Ro (*equal contribution)

NeurIPS 2024

TroL: Traversal of Layers for Large Language and Vision Models

Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

EMNLP 2024 / HuggingFace / Demo

Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro

NeurIPS 2024 / HuggingFace / Demo

MoAI: Mixture of All Intelligence for Large Language and Vision Models

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ECCV 2024 / HuggingFace / Demo

MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection

Taeheon Kim*, Sangyun Chung*, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro (* equal contribution)

IEEE TCSVT

What if...?: Counterfactual Inception to Mitigate Hallucination Effects in Large Multimodal Models

Junho Kim∗, Yeon Ju Kim∗, Yong Man Ro (* equal contributor)

EMNLP 2024

CoLLaVO: Crayon Large Language and Vision mOdel

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ACL 2024 / HuggingFace / Demo

Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

Se Jin Park*, Chae Won Kim*, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeonghun Yeo, and Yong Man Ro (* equal contributor)

ACL 2024 (Oral) / HuggingFace / Demo

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora, Xuankai Chang, Shinji Watanabe, Yong Man Ro

IEEE Transactions on Multimedia

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

Jeong Hun Yeo, Seunghee Han, Minsu Kim, Yong Man Ro

EMNLP 2024

Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation

Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Se Jin Park, Yong Man Ro

ACM Multimedia 2024

Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank

Sungjune Park*, Hyunjun Kim*, Yong Man Ro (* equal contributor)

Pattern Recognition

Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection

Sungjune Park*, Hyunjun Kim*, Yong Man Ro (* equal contributor)

IEEE Transactions on Circuits and Systems for Video Technology

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

Jeongsoo Choi*, Se Jin Park*, Minsu Kim* and Yong Man Ro (* equal contributor)

CVPR 2024

Towards Practical and Efficient Image-To-Speech Captioning With Vision-Language Pre-Training and Multi-Modal Tokens

Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, and Yong Man Ro

ICASSP 2024

OSR via Visual Prompts from Common-Sense Knowledge

Seongyeop Kim, Hyung-Il Kim, and Yong Man Ro

AAAI 2024

Page updated

Report abuse