xinrongzhang2022
/

MiniCPM-duplex

Text Generation

Transformers

PyTorch

conversational

custom_code

Model card Files Files and versions Community

xinrongzhang2022 commited on Jun 22

Commit

c692147

•

1 Parent(s): 7ca6626

Upload 9 files

Browse files

Files changed (1) hide show

modeling_minicpm.py +55 -58

modeling_minicpm.py CHANGED Viewed

@@ -21,7 +21,8 @@
 import math
 import warnings
 from typing import List, Optional, Tuple, Union, Dict
 import torch
 import torch.nn.functional as F
 import torch.utils.checkpoint
@@ -1132,14 +1133,20 @@ class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
         #######FOR DUPLEX
         self.input_ids = None
         self.history = []
         self.logits_processor = LogitsProcessorList()
         self.generate_flag = False
         self.print_len = 0
         self.is_length_limit = False
     def reset_chat_history(self):
         self.input_ids = None
         self.history = []
         self.logits_processor = LogitsProcessorList()
         self.generate_flag = False
         self.print_len = 0
@@ -1321,17 +1328,19 @@ class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
             self.history = []
             for i in range(0, len(history_old), 2):
                 if history_old[i]["content"] == "<idle>":
-                    if history_old[i+1]["content"].strip(" .\n,") in ["<idle>", "<idle></s>", "</s>", "idle", "idle</s>"]:
                         self.generate_flag = False
                         continue
                     else:
                         self.history.append(history_old[i])
-                        self.history.append(history_old[i+1])
                         self.generate_flag = True
                 else:
                     self.history.append(history_old[i])
-                    self.history.append(history_old[i+1])
                     self.generate_flag = True
@@ -1341,79 +1350,73 @@ class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
                     stopping_criteria=None, **kwargs):
         # torch.manual_seed(0)
         if self.generate_flag is True and query is not None:
             self.update_history()
-            prompt = copy.deepcopy(self.history)
             if self.generate_flag is False and query in ["<idle>"]:
-                return 1
             elif query not in ["<idle>"]:
                 self.generate_flag = True
-            prompt.append({"role": "user", "content": query})
             history_str = ""
-            for iii in range(0, len(prompt), 2):
-                history_str += "<用户>" + prompt[iii]["content"] + "<AI>"
-                if iii < len(prompt) - 1:
-                    history_str += prompt[iii+1]["content"]
             # history_str = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=False)
             self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
             if self.input_ids.shape[-1] >= max_length:
                 self.is_length_limit = True
                 return 1
-            # while self.input_ids.shape[-1] >= max_length and len(history_str) > 0:
-            #     history_str = history_str[2:]
-            #     self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
             self.print_len = 0
-            self.history.append({"role": "user", "content": query})
             self.history.append({"role": "assistant", "content": ""})
         elif self.generate_flag is False and query is not None and query not in ["<idle>"]:
             self.generate_flag = True
-            prompt = copy.deepcopy(self.history)
-            prompt.append({"role": "user", "content": query})
-            # history_str = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=False)
             history_str = ""
-            for iii in range(0, len(prompt), 2):
-                history_str += "<用户>" + prompt[iii]["content"] + "<AI>"
-                if iii < len(prompt) - 1:
-                    history_str += prompt[iii+1]["content"]
             self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
             if self.input_ids.shape[-1] >= max_length:
                 self.is_length_limit = True
                 return 1
-            # while self.input_ids.shape[-1] >= max_length and len(history_str) > 0:
-            #     history_str = history_str[2:]
-            #     self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
-            self.print_len = 0
-            self.history.append({"role": "user", "content": query})
             self.history.append({"role": "assistant", "content": ""})
         else:
-            return 1
         if logits_processor is None:
             self.logits_processor = LogitsProcessorList()
-        # logits_processor.append(InvalidScoreLogitsProcessor())
-        self.gen_kwargs = {"max_length": max_length, "do_sample": do_sample, "top_p": top_p,
-            "temperature": temperature, "logits_processor": self.logits_processor, **kwargs}
-        # self.generation_config = self.generation_config.update(**self.gen_kwargs)
-        self.model_kwargs = self.generation_config.update(**self.gen_kwargs)
-        stopping_criteria = stopping_criteria if stopping_criteria is not None else StoppingCriteriaList()
-        self.stopping_criteria = self._get_stopping_criteria(
-            generation_config=self.generation_config, stopping_criteria=stopping_criteria
-        )
-        self.prefix_allowed_tokens_fn = None
-        self.tokenizer = tokenizer
-        self.logits_warper = self._get_logits_warper(self.generation_config)
-        self.has_default_max_length = kwargs.get("max_length") is None and self.generation_config.max_length is not None
-        # for outputs in self.stream_generate(inputs, **gen_kwargs):
-        #     outputs = outputs.tolist()[0][len(inputs[0]):]
-        #     response = tokenizer.decode(outputs)
-        #     new_history = history + [{"role": "user", "content": query},
-        #                             {"role": "assistant", "content": response}]
-        #     yield response, new_history
         return 0
     @torch.inference_mode()
     def stream_generate(
             self,
@@ -1507,19 +1510,13 @@ class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
         response = self.tokenizer.batch_decode(self.input_ids, spaces_between_special_tokens=False)[0]
         # print("response: ", response)
         response = response.rsplit("<AI>", 1)[-1]
-        # print("response: ", self.input_ids[0][-1], response)
         cut_len = self.print_len
-        # if "<idle>" in response[cut_len:] and len(self.history[-1]["content"]) != 0:
-        #     self.input_ids = self.input_ids[:, :-1]
-        #     return None, self.history
         self.print_len = len(response)
         self.history[-1]["content"] += response[cut_len:]
-        # if self.history[-1]["content"][-8:] == "</s></s>":
-        #     self.generate_flag = False
-        # if response[cut_len:] in ["<idle>", " <idle>"]:
-        #     self.generate_flag = False
         return response[cut_len:], self.history
@@ -1678,4 +1675,4 @@ class MiniCPMForSequenceClassification(MiniCPMPreTrainedModel):
             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
-        )

 import math
 import warnings
 from typing import List, Optional, Tuple, Union, Dict
+import jsonlines
+import time
 import torch
 import torch.nn.functional as F
 import torch.utils.checkpoint
         #######FOR DUPLEX
         self.input_ids = None
         self.history = []
+        self.history_all = []
         self.logits_processor = LogitsProcessorList()
         self.generate_flag = False
         self.print_len = 0
         self.is_length_limit = False
     def reset_chat_history(self):
+        save_file = "/data/duplex_logs/subject_duplex_%s.jsonl"%(time.strftime("%Y-%m-%d-%H:%M:%S", time.localtime(time.time())))
+        fw = jsonlines.open(save_file, "w")
+        fw.write_all(self.history_all)
+        fw.close()
         self.input_ids = None
         self.history = []
+        self.history_all = []
         self.logits_processor = LogitsProcessorList()
         self.generate_flag = False
         self.print_len = 0
             self.history = []
             for i in range(0, len(history_old), 2):
                 if history_old[i]["content"] == "<idle>":
+                    if i + 1 < len(history_old) and history_old[i+1]["content"].strip(" .\n,") in ["<idle>", "<idle></s>", "</s>", "idle", "idle</s>"]:
                         self.generate_flag = False
                         continue
                     else:
                         self.history.append(history_old[i])
+                        if i + 1 < len(history_old):
+                            self.history.append(history_old[i+1])
                         self.generate_flag = True
                 else:
                     self.history.append(history_old[i])
+                    if i + 1 < len(history_old):
+                        self.history.append(history_old[i+1])
                     self.generate_flag = True
                     stopping_criteria=None, **kwargs):
         # torch.manual_seed(0)
+        self.gen_kwargs = {"max_length": max_length, "do_sample": do_sample, "top_p": top_p,
+            "temperature": temperature, "logits_processor": self.logits_processor, **kwargs}
+        # self.generation_config = self.generation_config.update(**self.gen_kwargs)
+        self.model_kwargs = self.generation_config.update(**self.gen_kwargs)
+        stopping_criteria = stopping_criteria if stopping_criteria is not None else StoppingCriteriaList()
+        self.stopping_criteria = self._get_stopping_criteria(
+            generation_config=self.generation_config, stopping_criteria=stopping_criteria
+        )
+        self.prefix_allowed_tokens_fn = None
+        self.tokenizer = tokenizer
+        self.logits_warper = self._get_logits_warper(self.generation_config)
+        self.has_default_max_length = kwargs.get("max_length") is None and self.generation_config.max_length is not None
         if self.generate_flag is True and query is not None:
             self.update_history()
+            # prompt = copy.deepcopy(self.history)
             if self.generate_flag is False and query in ["<idle>"]:
+                return 2
             elif query not in ["<idle>"]:
                 self.generate_flag = True
+            self.history.append({"role": "user", "content": query})
+            self.history_all.append({"role": "user", "content": query, "timestamp": time.time()})
             history_str = ""
+            for iii in range(0, len(self.history), 2):
+                history_str += "<用户>" + self.history[iii]["content"] + "<AI>"
+                if iii < len(self.history) - 1:
+                    history_str += self.history[iii+1]["content"]
             # history_str = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=False)
             self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
             if self.input_ids.shape[-1] >= max_length:
                 self.is_length_limit = True
+                # self.history = self.history[:-1]
                 return 1
             self.print_len = 0
             self.history.append({"role": "assistant", "content": ""})
+            self.history_all.append({"role": "assistant", "content": ""})
         elif self.generate_flag is False and query is not None and query not in ["<idle>"]:
             self.generate_flag = True
+            self.history.append({"role": "user", "content": query})
+            self.history_all.append({"role": "user", "content": query, "timestamp": time.time()})
             history_str = ""
+            for iii in range(0, len(self.history), 2):
+                history_str += "<用户>" + self.history[iii]["content"] + "<AI>"
+                if iii < len(self.history) - 1:
+                    history_str += self.history[iii+1]["content"]
             self.input_ids = tokenizer(history_str, return_tensors='pt').to(self.device).input_ids
             if self.input_ids.shape[-1] >= max_length:
                 self.is_length_limit = True
+                # self.history = self.history[:-1]
                 return 1
+            self.print_len = 0
             self.history.append({"role": "assistant", "content": ""})
+            self.history_all.append({"role": "assistant", "content": ""})
         else:
+            return 2
         if logits_processor is None:
             self.logits_processor = LogitsProcessorList()
         return 0
     @torch.inference_mode()
     def stream_generate(
             self,
         response = self.tokenizer.batch_decode(self.input_ids, spaces_between_special_tokens=False)[0]
         # print("response: ", response)
         response = response.rsplit("<AI>", 1)[-1]
         cut_len = self.print_len
         self.print_len = len(response)
+        if self.history_all[-1]["content"] == "":
+            self.history_all[-1]["timestamp"] = time.time()
         self.history[-1]["content"] += response[cut_len:]
+        self.history_all[-1]["content"] += response[cut_len:]
         return response[cut_len:], self.history
             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
+        )