2 22 7

Jianzong Wu

jianzongwu

https://jianzongwu.github.io

jianzongwu

AI & ML interests

Multimodal Learning

Recent Activity

upvoted a paper 6 days ago

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

upvoted a paper about 1 month ago

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

upvoted a paper about 1 month ago

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

View all activity

Organizations

None yet

upvoted a paper 6 days ago

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Paper • 2512.24551 • Published 7 days ago • 17

upvoted 2 papers about 1 month ago

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Paper • 2512.05112 • Published Dec 4, 2025 • 11

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Paper • 2512.02457 • Published Dec 2, 2025 • 13

commented a paper about 1 month ago

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Paper • 2512.02457 • Published Dec 2, 2025 • 13 •

updated 2 datasets about 1 month ago

jianzongwu/VGGSound-T2AV

Viewer • Updated Dec 3, 2025 • 108k • 46

jianzongwu/ALT-Merge

Viewer • Updated Dec 3, 2025 • 3.25k • 36

published 2 datasets about 1 month ago

jianzongwu/VGGSound-T2AV

Viewer • Updated Dec 3, 2025 • 108k • 46

jianzongwu/ALT-Merge

Viewer • Updated Dec 3, 2025 • 3.25k • 36

upvoted a paper about 2 months ago

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Paper • 2511.09611 • Published Nov 12, 2025 • 69

upvoted a paper 2 months ago

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Paper • 2510.20579 • Published Oct 23, 2025 • 55

upvoted 3 papers 3 months ago

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Paper • 2510.18876 • Published Oct 21, 2025 • 36

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Paper • 2510.11712 • Published Oct 13, 2025 • 30

LongLive: Real-time Interactive Long Video Generation

Paper • 2509.22622 • Published Sep 26, 2025 • 184

upvoted 3 papers 5 months ago

upvoted 4 papers 6 months ago

Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Paper • 2507.07104 • Published Jul 9, 2025 • 45

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Paper • 2507.07999 • Published Jul 10, 2025 • 49

Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

Paper • 2506.19852 • Published Jun 24, 2025 • 42

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Paper • 2506.23858 • Published Jun 30, 2025 • 31

Jianzong Wu

AI & ML interests

Recent Activity

Organizations

jianzongwu's activity