Multi-module - a Chain123 Collection

Chain123 's Collections

Agent

Multi-module

updated 3 days ago

VIDEOP2R: Video Understanding from Perception to Reasoning

Paper • 2511.11113 • Published 13 days ago • 107
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Paper • 2511.14159 • Published 10 days ago • 24
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Paper • 2511.13026 • Published 11 days ago • 24
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

Paper • 2511.14582 • Published 9 days ago • 17