new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

May 15

Submitted by

yaful

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

·
28 authors

Submitted by

zhuhz22

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

thu-ml

Tsinghua Machine Learning Group

Submitted by

taesiri

Self-Distilled Agentic Reinforcement Learning

·
11 authors

Submitted by

ZhaoweiWang

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

nvidia

Submitted by

HaoyiZhu

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

nvidia

Submitted by

seawolf2357

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

FINAL-Bench

Submitted by

DarkBluee

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

·
17 authors

Submitted by

JamesMile

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

XianJiaotongUniversity

Xi'an Jiaotong University

Submitted by

ZhaoweiWang

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

HKUST NLP Group

Submitted by

Mar2Ding

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

internlm

Intern Large Models

Submitted by

tonghe90

Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

·
2 authors

Submitted by

taofeng

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

YuminChoi

PREPING: Building Agent Memory without Tasks

kaist-ai

Submitted by

JiaaqiLiu

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

·
7 authors

Submitted by

danielgilo

Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

Submitted by

taesiri

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

·
4 authors

Submitted by

alsu-sagirova

Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

·
8 authors

Submitted by

bloc97

Long Context Pre-Training with Lighthouse Attention

NousResearch

Submitted by

qmang

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

·
17 authors

Submitted by

quanhaol

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

·
10 authors

Submitted by

LiamLian0727

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

DeepCybo

Submitted by

IvanTang

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

PekingUniversity

Peking University

Submitted by

qianhuiwu

Orchard: An Open-Source Agentic Modeling Framework

MicrosoftResearch

Microsoft Research

Submitted by

LIQIIIII

ViMU: Benchmarking Video Metaphorical Understanding

·
2 authors

Submitted by

xichenhku

PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

zju

Zhejiang University

Submitted by

JasonTTY

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

zju

Zhejiang University

Submitted by

oliveryanzuolu

RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

mvp-lab

Submitted by

JingyeChen22

Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

Submitted by

KomeijiForce

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

UCSanDiego

University of California at San Diego

Submitted by

taesiri

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

·
6 authors

Submitted by

jzhuang

WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild

TheUniversityofQueensland

The University of Queensland

Submitted by

hanlincs

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

young13579

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

deepseek-ai

Submitted by

hanhan3344

Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

ByteDance

2

Submitted by

tmeral

Aligning Latent Geometry for Spherical Flow Matching in Image Generation

mayzovt

Submitted by

qian43

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

WuhanUniversity

Wuhan Univeristy

Submitted by

n3il666

Topology-Preserving Neural Operator Learning via Hodge Decomposition

princetonu

Princeton University

Submitted by

Ksgk-fy

Dynamic Latent Routing

thoughtworks

Submitted by

SinclairSchneider

LLM-based Detection of Manipulative Political Narratives

NLP Research Group UniBW

Submitted by

shash42

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Intelligent-Systems

Max Planck Institute for Intelligent Systems

Submitted by

SinclairSchneider

Ideology Prediction of German Political Texts

NLP Research Group UniBW

Submitted by

che111

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

stepfun-ai

Submitted by

eternaldolphin

RewardHarness: Self-Evolving Agentic Post-Training

NAIL-Group

Natural and Artificial Intelligence Lab

Submitted by

kaiyan289

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

Julius-L

BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

alibaba-inc

Submitted by

mbkim

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

google

Submitted by

Hanbo-Cheng

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

ustc-community

University of Science and Technology of China

Submitted by

taesiri

Nexus : An Agentic Framework for Time Series Forecasting

·
9 authors

Submitted by

taesiri

Quantitative Video World Model Evaluation for Geometric-Consistency

·
5 authors

Submitted by

AmirMohseni

CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

·
4 authors

Submitted by

DhavalPatel

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

ibm

Submitted by

Sweson

PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

notredame

University of Notre Dame

Submitted by

zhehuderek

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

·
9 authors