8 16 1

Yang Shi

DogNeverSleep

https://FrankYang-17.github.io/

FrankYang-17

AI & ML interests

👨🏻‍🎓PhD student at Peking University

Recent Activity

authored a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

upvoted a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

commented on a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

View all activity

Organizations

authored a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Paper • 2511.21395 • Published 12 days ago • 15

upvoted a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Paper • 2511.21395 • Published 12 days ago • 15

commented a paper 11 days ago

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Paper • 2511.21395 • Published 12 days ago • 15 •

upvoted a paper 27 days ago

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Paper • 2511.07250 • Published 28 days ago • 17

authored a paper about 1 month ago

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Paper • 2511.02243 • Published Nov 4 • 24

upvoted a paper about 1 month ago

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Paper • 2511.02243 • Published Nov 4 • 24

commented a paper about 1 month ago

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Paper • 2511.02243 • Published Nov 4 • 24 •

updated a dataset about 2 months ago

DogNeverSleep/MME-VideoOCR-VLMEvalKit

Viewer • Updated Oct 23 • 1.46k • 35

published a dataset about 2 months ago

DogNeverSleep/MME-VideoOCR-VLMEvalKit

Viewer • Updated Oct 23 • 1.46k • 35

upvoted a paper about 2 months ago

IF-VidCap: Can Video Caption Models Follow Instructions?

Paper • 2510.18726 • Published Oct 21 • 24

authored a paper about 2 months ago

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Paper • 2510.14265 • Published Oct 16 • 19

upvoted a paper about 2 months ago

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Paper • 2510.14265 • Published Oct 16 • 19

authored a paper about 2 months ago

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Paper • 2510.10395 • Published Oct 12 • 29

upvoted a paper about 2 months ago

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Paper • 2510.10395 • Published Oct 12 • 29

commented a paper about 2 months ago

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Paper • 2510.10395 • Published Oct 12 • 29 •

updated a model about 2 months ago

LatentThinking/AVT-models

Updated Oct 11

updated 2 datasets about 2 months ago

DogNeverSleep/MME-VideoOCR_Dataset

Viewer • Updated Oct 10 • 2k • 145 • 1

DogNeverSleep/EgoBlind

Updated Oct 9 • 17

published a dataset 2 months ago

DogNeverSleep/EgoBlind

Updated Oct 9 • 17

liked a dataset 2 months ago

WINDop/OpenGPT-4o-Image

Updated Nov 2 • 2.31k • 18

Yang Shi

AI & ML interests

Recent Activity

Organizations

DogNeverSleep's activity