Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

RO-HOON OH's picture

1 2

RO-HOON OH

heiscold

·

renslightsaber

AI & ML interests

TTS, Audio Editing, Speech Editing

Organizations

None yet

heiscold 's collections 5

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Paper • 2402.07383 • Published Feb 12, 2024 • 16
Matcha-TTS: A fast TTS architecture with conditional flow matching

Paper • 2309.03199 • Published Sep 6, 2023 • 14
Natural language guidance of high-fidelity text-to-speech with synthetic annotations

Paper • 2402.01912 • Published Feb 2, 2024 • 12
Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7, 2024 • 8

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Paper • 2402.10009 • Published Feb 15, 2024 • 22

Gemma 2: Improving Open Language Models at a Practical Size

Paper • 2408.00118 • Published Jul 31, 2024 • 79
Training-Free Watermarking for Autoregressive Image Generation

Paper • 2505.14673 • Published May 20 • 12
To Bias or Not to Bias: Detecting bias in News with bias-detector

Paper • 2505.13010 • Published May 19 • 3

Music_Generation

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Paper • 2402.06178 • Published Feb 9, 2024 • 15
DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2401.12179 • Published Jan 22, 2024 • 21
Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7, 2024 • 8
Brain2Music: Reconstructing Music from Human Brain Activity

Paper • 2307.11078 • Published Jul 20, 2023 • 41

Diffusion_FM_...

Multistep Consistency Models

Paper • 2403.06807 • Published Mar 11, 2024 • 16
Improving Text-to-Image Consistency via Automatic Prompt Optimization

Paper • 2403.17804 • Published Mar 26, 2024 • 20
Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1, 2024 • 31
Consistency Flow Matching: Defining Straight Flows with Velocity Consistency

Paper • 2407.02398 • Published Jul 2, 2024 • 17

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Paper • 2402.07383 • Published Feb 12, 2024 • 16
Matcha-TTS: A fast TTS architecture with conditional flow matching

Paper • 2309.03199 • Published Sep 6, 2023 • 14
Natural language guidance of high-fidelity text-to-speech with synthetic annotations

Paper • 2402.01912 • Published Feb 2, 2024 • 12
Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7, 2024 • 8

Music_Generation

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Paper • 2402.06178 • Published Feb 9, 2024 • 15
DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2401.12179 • Published Jan 22, 2024 • 21
Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7, 2024 • 8
Brain2Music: Reconstructing Music from Human Brain Activity

Paper • 2307.11078 • Published Jul 20, 2023 • 41

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Paper • 2402.10009 • Published Feb 15, 2024 • 22

Diffusion_FM_...

Multistep Consistency Models

Paper • 2403.06807 • Published Mar 11, 2024 • 16
Improving Text-to-Image Consistency via Automatic Prompt Optimization

Paper • 2403.17804 • Published Mar 26, 2024 • 20
Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1, 2024 • 31
Consistency Flow Matching: Defining Straight Flows with Velocity Consistency

Paper • 2407.02398 • Published Jul 2, 2024 • 17

Gemma 2: Improving Open Language Models at a Practical Size

Paper • 2408.00118 • Published Jul 31, 2024 • 79
Training-Free Watermarking for Autoregressive Image Generation

Paper • 2505.14673 • Published May 20 • 12
To Bias or Not to Bias: Detecting bias in News with bias-detector

Paper • 2505.13010 • Published May 19 • 3

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs