Sprout Huang's picture

Sprout Huang

HRXUST

AI & ML interests

None yet

Organizations

None yet

authored 2 papers 5 months ago

Uncovering Safety Risks of Large Language Models through Concept Activation Vector

Paper • 2404.12038 • Published Apr 18, 2024 • 1

GuidedBench: Equipping Jailbreak Evaluation with Guidelines

Paper • 2502.16903 • Published Feb 24