International Conference

[#384] STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Junho Kim, Hosu Lee, James M. Rehg, Minsu Kim, Yong Man Ro

ECCV 2026 / Code / Demo

[#383] GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

ECCV 2026 /Demo

[#382] MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Sangyun Chung, Se Yeon Kim, Youngchae Chee, and Yong Man Ro

CVPR 2026 / Code / Demo

[#381] Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee*, Youngchae Chee*, Yong Man Ro (*equal contribution)

CVPR 2026 Findings / Project Page / Demo

[#380] ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee*, Junho Kim*, Hyunjun Kim, Yong Man Ro (*equal contribution)

CVPR 2026 Findings

[#379] Robust Grounding with MLLMs against Occlusion and Small Objects via Language-Guided Semantic Cues

Beomchan Park*, Seongho Kim*, Hyunjun Kim, Sungjune Park, Yong Man Ro (*equal contribution)

ICASSP 2026

[#378] Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier

Hyeongseop Rha, Jeong Hun Yeo, KIM YEONJU, Yong Man Ro

AAAI 2026 / Code

[#377] Unified Reinforcement and Imitation Learning for Vision-Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Frank Wang, Yueh-Hua Wu

NeurIPS 2025 / Project Page

[#376] Closing the Modality Gap: Integrating LLMs with LiDAR for 3D Object Detection and Object-level Understanding

Youngchae Chee, Taeheon Kim, Youngjoon Yu, HyunWook Park, and Yong Man Ro

ICIP 2025

[#375] Focus Where It Matters: LLM-Guided Regional Identification for Instruction-based Image Editing

Minho Park, Young Joo Jo, Jae-Hyeok Lee, Ji Yong Lee, Dong-oh Kang, Yong Man Ro

ACM MM 2025

[#374] Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro

ICCV 2025 / Code

[#373] MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens

Jeong Hun Yeo, Hyeongseop Rha, Se Jin Park, Yong Man Ro

ACL 2025 / Code

[#372] Long-Form Speech Generation with Spoken Language Models

Se Jin Park, Julian Salazar, Aren Jansen, Keisuke Kinoshita, Yong Man Ro, RJ Skerry-Ryan

ICML 2025 Oral (~1%)

[#371] SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Junho Kim*, Hyunjun Kim*, Hosu Lee, Yong Man Ro (* equal contributor)

CVPR 2025 / Dataset

[#370] VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

CVPR 2025 / Demo

[#369] Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

Jeong Hun Yeo, Chae Won Kim, Hyunjun Kim, Hyeongseop Rha, Seunghee Han, Wen-Huang Cheng, Yong Man Ro

AAAI 2025 / Code

[#368] Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro

NeurIPS 2024 / HuggingFace / Demo

[#367] CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models

Junho Kim*, Hyunjun Kim*, Yeonju Kim, Yong Man Ro (*equal contribution)

NeurIPS 2024

[#366] TroL: Traversal of Layers for Large Language and Vision Models

Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

EMNLP 2024

[#365] Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

Jeong Hun Yeo*, Seunghee Han*, Minsu Kim, Yong Man Ro (* equal contributor)

EMNLP 2024

[#364] What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models

Junho Kim, Yeon Ju Kim, Yong Man Ro

EMNLP 2024

[#363] Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation

Minsu Kim*, Jeonghun Yeo*, Se Jin Park, Hyeongseop Rha, Yong Man Ro (* equal contributor)

ACM Multimedia 2024

[#362] MoAI: Mixture of All Intelligence for Large Language and Vision Models

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ECCV 2024 / HuggingFace / Demo

[#361] Weather-aware Drone-view Object Detection via Environmental Context Understanding

Hyunjun Kim, Dahye Lee, Sungjune Park, Yong Man Ro

ICIP 2024

[#360] Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-driven Approach for Cross-modal Alignment Fusion

Taeheon Kim*, Sangyun Chung*, Youngjoon Yu*, Yong Man Ro (* equal contributor)

ICIP Workshop 2024

[#359] CoLLaVO: Crayon Large Language and Vision mOdel

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ACL 2024 / HuggingFace / Demo

[#358] Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

Se Jin Park*, Chae Won Kim*, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeonghun Yeo, and Yong Man Ro (* equal contributor)

ACL 2024 (Oral) / HuggingFace / Demo

Received Outstanding Paper Award

[#357] Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection

Taeheon Kim*, Sebin Shin*, Youngjoon Yu, Hak Gu Kim, and Yong Man Ro (* equal contributor)

CVPR 2024

[#356] AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

Jeongsoo Choi*, Se Jin Park*, Minsu Kim* and Yong Man Ro (* equal contributor)

CVPR 2024

[#355] Hyperspectral Skin Vision Challenge: Can Your Camera See Beyond Your Skin?

Pai Chet Ng, Zhixiang Chi, Malcolm Low, Juwei Lu, Konstantinos Plataniotis, Nikolaos Boulgouris, Thirimachos Bourlai, Yong Man Ro

ICASSP 2024 Special Session

[#354] Towards Practical and Efficient Image-To-Speech Captioning With Vision-Language Pre-Training and Multi-Modal Tokens

Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, and Yong Man Ro

ICASSP 2024

[#353] Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper

Jeong Hun Yeo*, Minsu Kim*, Shinji Watanabe, and Yong Man Ro

ICASSP 2024

[#352] Persona Extraction through Semantic Similarity for Emotional Support Conversation Generation

Seunghee Han, Se Jin Park, Chae Won Kim, and Yong Man Ro

ICASSP 2024

[#351] Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models

Jeongsoo Choi, Minsu Kim, Se Jin Park, and Yong Man Ro

ICASSP 2024

[#350] Exploring Phonetic Context-aware Lip-Sync for Talking Face Generation

Se Jin Park, Minsu Kim, Jeongsoo Choi, and Yong Man Ro

ICASSP 2024

1 2 3 4 5 6 7 8

Page updated

Report abuse