DeBERTa-v3-large をベースにした Idea Reward Model(不確実性回帰 + Isotonic 校正)。 入力: タイトル + アブストラクト → 回帰スコア(μ)と 0–1 の報酬にマッピング。
Files info