OrionStarAI
/

Orion-14B-Chat-Int4

Text Generation

4-bit precision

Model card Files Files and versions Community

sharp commited on Jan 22

Commit

1c2e9a9

•

1 Parent(s): 41aa7c9

add chat function

Files changed (1) hide show

modeling_orion.py +21 -0

modeling_orion.py CHANGED Viewed

@@ -30,6 +30,10 @@ from transformers.utils import (
     replace_return_docstrings,
 )
 if is_flash_attn_2_available():
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
@@ -951,6 +955,23 @@ class OrionForCausalLM(OrionPreTrainedModel):
             attentions=outputs.attentions,
         )
     def prepare_inputs_for_generation(
         self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
     ):

     replace_return_docstrings,
 )
+from .generation_utils import build_chat_input, TextIterStreamer
+from transformers.generation.utils import GenerationConfig
+from threading import Thread
 if is_flash_attn_2_available():
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
             attentions=outputs.attentions,
         )
+    def chat(self, tokenizer, messages: List[dict], streaming=False,generation_config: Optional[GenerationConfig]=None):
+        generation_config = generation_config or self.generation_config
+        input_tokens = build_chat_input(tokenizer,messages)
+        input_ids = torch.LongTensor([input_tokens]).to(self.device)
+        if streaming:
+            streamer = TextIterStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+            Thread(target=self.generate, kwargs=dict(
+                inputs=input_ids, streamer=streamer,
+                generation_config=generation_config,
+            )).start()
+            return streamer
+        else:
+            outputs = self.generate(input_ids, generation_config=generation_config)
+            response = tokenizer.decode(outputs[0][len(input_ids[0]):], skip_special_tokens=True)
+            return response
     def prepare_inputs_for_generation(
         self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
     ):