yichaodu
/

DiffusionDPO-safety-internvl-1.5

@@ -3,12 +3,14 @@ tags:
 - stable-diffusion
 - stable-diffusion-diffusers
 - text-to-image
 inference: true
 ---
 # Aligned Diffusion Model via DPO
-Diffusion Model Aligned with thef following reward model  and DPO algorithm
 ```
 close-sourced vlm: claude3-opus  gemini-1.5  gpt-4o  gpt-4v
 open-sourced vlm: internvl-1.5
@@ -46,9 +48,13 @@ image = pipeline(prompt=prompt, generator=generator, guidance_scale=gs).images[0
 ## Citation
 ```
-@misc{mjbench2024mjbench,
-  title={MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge?},
-  author={Chen*, Zhaorun and Du*, Yichao and Wen, Zichen and Zhou, Yiyang and Cui, Chenhang and Weng, Zhenzhen and Tu, Haoqin and Wang, Chaoqi and Tong, Zhengwei and HUANG, Leria and Chen, Canyu and Ye Qinghao and Zhu, Zhihong and Zhang, Yuqing and Zhou, Jiawei and Zhao, Zhuokai and Rafailov, Rafael and Finn, Chelsea and Yao, Huaxiu},
-  year={2024}
 }
 ```

 - stable-diffusion
 - stable-diffusion-diffusers
 - text-to-image
+- DPO
+- DiffusionDPO
 inference: true
 ---
 # Aligned Diffusion Model via DPO
+Diffusion model aligned with the following reward models and Direct Preference Optimization (DPO) algorithm
 ```
 close-sourced vlm: claude3-opus  gemini-1.5  gpt-4o  gpt-4v
 open-sourced vlm: internvl-1.5
 ## Citation
 ```
+@misc{chen2024mjbenchmultimodalrewardmodel,
+    title={MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?},
+    author={Zhaorun Chen and Yichao Du and Zichen Wen and Yiyang Zhou and Chenhang Cui and Zhenzhen Weng and Haoqin Tu and Chaoqi Wang and Zhengwei Tong and Qinglan Huang and Canyu Chen and Qinghao Ye and Zhihong Zhu and Yuqing Zhang and Jiawei Zhou and Zhuokai Zhao and Rafael Rafailov and Chelsea Finn and Huaxiu Yao},
+    year={2024},
+    eprint={2407.04842},
+    archivePrefix={arXiv},
+    primaryClass={cs.CV},
+    url={https://arxiv.org/abs/2407.04842},
 }
 ```