OCR - a hbkang Collection

hbkang 's Collections

korean-language

synthetic-data-generation

Makeup Transfer

ID-Preserving Generation

interesting architecture

generative-model-training

talking-head-generation

artistic rendering

full-body-generation

OCR

updated 24 days ago

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Paper • 2110.00061 • Published Sep 30, 2021 • 3
Optimized Table Tokenization for Table Structure Recognition

Paper • 2305.03393 • Published May 5, 2023 • 1
Qwen3-VL Technical Report

Paper • 2511.21631 • Published Nov 26, 2025 • 162
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Paper • 2510.14528 • Published Oct 16, 2025 • 124
PaddlePaddle/PaddleOCR-VL

Image-Text-to-Text • 1.0B • Updated Mar 26 • 7.15k • 1.59k
DeepSeek-OCR: Contexts Optical Compression

Paper • 2510.18234 • Published Oct 21, 2025 • 93
deepseek-ai/DeepSeek-OCR

Image-Text-to-Text • 3B • Updated Nov 4, 2025 • 2.2M • 3.22k
HunyuanOCR Technical Report

Paper • 2511.19575 • Published Nov 24, 2025 • 22
tencent/HunyuanOCR

Image-Text-to-Text • 1.0B • Updated Jan 13 • 181k • 746
DocReward: A Document Reward Model for Structuring and Stylizing

Paper • 2510.11391 • Published Oct 13, 2025 • 27
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding

Paper • 2408.14764 • Published Aug 27, 2024
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

Paper • 2510.26213 • Published Oct 30, 2025 • 10
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

Paper • 2511.10390 • Published Nov 13, 2025
Structured Document Translation via Format Reinforcement Learning

Paper • 2512.05100 • Published Dec 4, 2025 • 2
DeepSeek-OCR 2: Visual Causal Flow

Paper • 2601.20552 • Published Jan 28 • 68
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Paper • 2601.21639 • Published Jan 29 • 51
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Paper • 2601.21957 • Published Jan 29 • 19
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Paper • 2601.21468 • Published Jan 29 • 25
Multimodal OCR: Parse Anything from Documents

Paper • 2603.13032 • Published Mar 13 • 43
PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding

Paper • 2604.00886 • Published 25 days ago • 6