RichardErkhov/yunconglong_-_Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B-gguf

Quantization made by Richard Erkhov.

Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B - GGUF

Model creator: https://huggingface.co/yunconglong/
Original model: https://huggingface.co/yunconglong/Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B/

Name	Quant method	Size
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q2_K.gguf	Q2_K	4.43GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.IQ3_XS.gguf	IQ3_XS	4.94GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.IQ3_S.gguf	IQ3_S	5.22GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q3_K_S.gguf	Q3_K_S	5.2GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.IQ3_M.gguf	IQ3_M	5.34GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q3_K.gguf	Q3_K	5.78GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q3_K_M.gguf	Q3_K_M	5.78GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q3_K_L.gguf	Q3_K_L	6.27GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.IQ4_XS.gguf	IQ4_XS	6.5GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q4_0.gguf	Q4_0	6.78GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.IQ4_NL.gguf	IQ4_NL	6.85GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q4_K_S.gguf	Q4_K_S	6.84GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q4_K.gguf	Q4_K	7.25GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q4_K_M.gguf	Q4_K_M	7.25GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q4_1.gguf	Q4_1	7.52GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q5_0.gguf	Q5_0	8.26GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q5_K_S.gguf	Q5_K_S	8.26GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q5_K.gguf	Q5_K	8.51GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q5_K_M.gguf	Q5_K_M	8.51GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q5_1.gguf	Q5_1	9.01GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q6_K.gguf	Q6_K	9.84GB
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B.Q8_0.gguf	Q8_0	12.75GB

Original model description:

license: mit tags: - moe - DPO - RL-TUNED

DPO Trainer with dataset jondurbin/truthy-dpo-v0.1 to improve [TomGrc/FusionNet_7Bx2_MoE_14B]

DPO Trainer TRL supports the DPO Trainer for training language models from preference data, as described in the paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model by Rafailov et al., 2023.