jondurbin
/

airoboros-dpo-110b-3.3

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

jondurbin commited on May 15

Commit

6176b35

•

1 Parent(s): 229fa63

Update README.md

Files changed (1) hide show

README.md +10 -2

README.md CHANGED Viewed

@@ -6,7 +6,6 @@ datasets:
 - jondurbin/airoboros-3.2
 - bluemoon-fandom-1-1-rp-cleaned
 - boolq
-- jondurbin/gutenberg-dpo-v0.1
 - LDJnr/Capybara
 - jondurbin/cinematika-v0.1
 - glaiveai/glaive-function-calling-v2
@@ -15,11 +14,20 @@ datasets:
 - Vezora/Tested-22k-Python-Alpaca
 - mattpscott/airoboros-summarization
 - unalignment/toxic-dpo-v0.2
 ---
 ### Overview
-Another experimental model, tuned primarily from synthetic data generated by [airoboros](https://github.com/jondurbin/airoboros)
 This is a fine-tune of [qwen1.5-110b](https://huggingface.co/Qwen/Qwen1.5-110B), and uses ChatML prompt formatting.

 - jondurbin/airoboros-3.2
 - bluemoon-fandom-1-1-rp-cleaned
 - boolq
 - LDJnr/Capybara
 - jondurbin/cinematika-v0.1
 - glaiveai/glaive-function-calling-v2
 - Vezora/Tested-22k-Python-Alpaca
 - mattpscott/airoboros-summarization
 - unalignment/toxic-dpo-v0.2
+- allenai/ultrafeedback_binarized_cleaned
+- argilla/distilabel-intel-orca-dpo-pairs
+- jondurbin/airoboros-3.2
+- jondurbin/contextual-dpo-v0.1
+- jondurbin/gutenberg-dpo-v0.1
+- jondurbin/py-dpo-v0.1
+- jondurbin/truthy-dpo-v0.1
+- jondurbin/gutenberg-dpo-v0.1
+- lmsys/lmsys-chat-1m
 ---
 ### Overview
+Another experimental model, tuned primarily from synthetic data generated by [airoboros](https://github.com/jondurbin/airoboros), with an additional DPO pass.
 This is a fine-tune of [qwen1.5-110b](https://huggingface.co/Qwen/Qwen1.5-110B), and uses ChatML prompt formatting.