495 245 1017

Peter Szemraj PRO

pszemraj

https://pszemraj.carrd.co/

AI & ML interests

metallic intuition

Recent Activity

upvoted a paper 2 days ago

WorldGrow: Generating Infinite 3D World

liked a model 2 days ago

Qwen/Qwen3-4B-Instruct-2507

upvoted a paper 2 days ago

Reasoning with Sampling: Your Base Model is Smarter Than You Think

View all activity

Organizations

upvoted 2 papers 2 days ago

WorldGrow: Generating Infinite 3D World

Paper • 2510.21682 • Published 5 days ago • 35

Reasoning with Sampling: Your Base Model is Smarter Than You Think

Paper • 2510.14901 • Published 13 days ago • 41

upvoted 2 papers 5 days ago

Attention Sinks in Diffusion Language Models

Paper • 2510.15731 • Published 12 days ago • 47

olmOCR 2: Unit Test Rewards for Document OCR

Paper • 2510.19817 • Published 7 days ago • 10

upvoted 2 papers 7 days ago

AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published 9 days ago • 27

Chem-R: Learning to Reason as a Chemist

Paper • 2510.16880 • Published 10 days ago • 51

upvoted a paper 8 days ago

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Paper • 2510.15346 • Published 13 days ago • 32

upvoted 2 papers 9 days ago

Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Paper • 2510.15262 • Published 13 days ago • 4

Language Models Model Language

Paper • 2510.12766 • Published 15 days ago • 23

upvoted a paper 12 days ago

Large Language Models Do NOT Really Know What They Don't Know

Paper • 2510.09033 • Published 20 days ago • 16

upvoted a paper 14 days ago

Deconstructing Attention: Investigating Design Principles for Effective Language Modeling

Paper • 2510.11602 • Published 16 days ago • 14

upvoted a paper 15 days ago

A Survey of Vibe Coding with Large Language Models

Paper • 2510.12399 • Published 16 days ago • 46

upvoted a collection 15 days ago

Qwen3-VL

Collection

25 items • Updated 8 days ago • 337

upvoted a collection 16 days ago

Nanonets-OCR2

Collection

2 items • Updated 16 days ago • 24

upvoted 2 papers 17 days ago

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

Paper • 2510.09517 • Published 19 days ago • 6

MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 69

upvoted a paper 19 days ago

Agent Learning via Early Experience

Paper • 2510.08558 • Published 20 days ago • 252

upvoted a collection 20 days ago

ModernVBERT

Collection

Resources for ModernVBERT • 5 items • Updated 27 days ago • 11

upvoted 2 papers 21 days ago

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

Paper • 2509.24107 • Published Sep 28 • 76

Optimal Scaling Needs Optimal Norm

Paper • 2510.03871 • Published 25 days ago • 28

Peter Szemraj PRO

AI & ML interests

Recent Activity

Organizations

pszemraj's activity