new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 12

Submitted by

zhiyuanhucs

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

MIT

Massachusetts Institute of Technology

Submitted by

ryanlee-dev

MiniMax Sparse Attention

MiniMaxAI

Submitted by

cmhungsteve

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

nvidia

Submitted by

zhengli1013

InterleaveThinker: Reinforcing Agentic Interleaved Generation

·
7 authors

Submitted by

namespace-ERI

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

·
12 authors

Submitted by

Jiaqi-hkust

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

·
9 authors

Submitted by

taesiri

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

MiniMaxAI

Submitted by

wanlilll

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

microsoft

Submitted by

taesiri

LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

·
18 authors

Submitted by

zgzaacm

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

NJU

Nanjing University

Submitted by

MoonKuun

N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

·
4 authors

2

Submitted by

amyxx2001

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

THU-KEG

Knowledge Engineer Group @ Tsinghua University

Submitted by

EasonFan

Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning

·
9 authors

2

Submitted by

taesiri

VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

·
4 authors

Submitted by

P1n3

Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback

Kwai-Kolors

Kolors Team, Kuaishou Technology

Submitted by

Yunqiu

VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

·
4 authors

3

Submitted by

utopiar

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

Orange-Team

Submitted by

Yunqiu

From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

·
4 authors

Submitted by

mingzhema

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

·
11 authors

2

Submitted by

xw27

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

UCLA

University of California, Los Angeles

Submitted by

Malikeh1375

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

r-three

Submitted by

Cxxs

High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation

Tongyi-MAI

2

Submitted by

pianzhikuang

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

·
7 authors

Submitted by

pianzhikuang

SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling

·
6 authors

Submitted by

Krystalan

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

·
5 authors

2

Submitted by

RKocielnik

Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior

·
8 authors

Submitted by

pangly

MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training

Submitted by

LeoYML

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

ibm-research

Submitted by

tayalmanan

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

tau-intelligence

TAU Intelligence

Submitted by

siyich

See What I See, Know What I Think: Dense Latent Communication Across Heterogeneous Agents

umich

University of Michigan

Submitted by

yujunzhou

Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents

·
11 authors

Submitted by

Agcs12

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

IITPatna01

Submitted by

taesiri

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

·
5 authors

Submitted by

taesiri

Surflo: Consistent 3D Surface Flow Model with Global State

·
6 authors

Submitted by

Row11n

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

·
8 authors

Submitted by

cesun

The Cold-Start Safety Gap in LLM Agents

·
3 authors

Submitted by

ashutosh1919

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

SAP

Submitted by

NiccoBiondi

A Stationary (and Therefore Compatible) Representation is All You Need

MHUGLab

Multimedia and Human Understanding Group

Submitted by

realfolkcode

PianoKontext: Expressive Performance Rendering from Deadpan Context

·
1 authors

Submitted by

jayoohwang

WebChallenger: A Reliable and Efficient Generalist Web Agent

·
3 authors

Submitted by

ohadeytan

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

ibm-research

Submitted by

RaphaelBfr

Leveraging Morphology for Historical Script Metrological Analysis

Ecole des Ponts ParisTech

Submitted by

PandaQQ

Revisiting Articulated Parts Perception in Robot Manipulation

SJTU

Shanghai Jiao Tong University

Submitted by

RKocielnik

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

caltech

California institute of technology