5456es
/

implicit_reward_Qwen2.5-0.5B-Instruct_prune_0.5-sigmoid

preference-learning

Model card Files Files and versions

implicit_reward_Qwen2.5-0.5B-Instruct_prune_0.5-sigmoid

Commit History

Upload rng_state_4.pth with huggingface_hub

be5ccd6
verified

5456es commited on Sep 7

Upload rng_state_5.pth with huggingface_hub

443968c
verified

5456es commited on Sep 7

Upload vocab.json with huggingface_hub

8ffa3e0
verified

5456es commited on Sep 7

Upload latest with huggingface_hub

e16cf7c
verified

5456es commited on Sep 7

Upload training_args.bin with huggingface_hub

50763b0
verified

5456es commited on Sep 7

Upload rng_state_1.pth with huggingface_hub

b6f0ba4
verified

5456es commited on Sep 7

Upload config.json with huggingface_hub

bf4340a
verified

5456es commited on Sep 7

Upload model.safetensors with huggingface_hub

ac5436c
verified

5456es commited on Sep 7

Upload trainer_state.json with huggingface_hub

60d8fd1
verified

5456es commited on Sep 7

initial commit

497a801
verified

5456es commited on Sep 7