llama-3.2-3b-voice

Runtime error

App Files Files Community

yadongxie commited on Sep 27

Commit

518275a

•

1 Parent(s): 120d632

fix: make conversation stream

Browse files

Files changed (1) hide show

app.py +20 -19

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ import time
 from dataclasses import dataclass, field
 from threading import Lock
 import base64
 @dataclass
@@ -64,6 +65,14 @@ def process_audio(audio: tuple, state: AppState):
         return None, state
 def generate_response_and_audio(audio_bytes: bytes, state: AppState):
     if state.client is None:
         raise gr.Error("Please enter a valid API key first.")
@@ -92,6 +101,7 @@ def generate_response_and_audio(audio_bytes: bytes, state: AppState):
         full_response = ""
         asr_result = ""
         audios = []
         for chunk in stream:
             if not chunk.choices:
@@ -101,16 +111,16 @@ def generate_response_and_audio(audio_bytes: bytes, state: AppState):
             asr_results = getattr(chunk.choices[0], "asr_results", [])
             if asr_results:
                 asr_result += "".join(asr_results)
-                yield full_response, asr_result, None, state
             if content:
                 full_response += content
-                yield full_response, asr_result, None, state
             if audio:
                 audios.extend(audio)
         final_audio = b"".join([base64.b64decode(a) for a in audios])
-        yield full_response, asr_result, final_audio, state
     except Exception as e:
         raise gr.Error(f"Error during audio streaming: {e}")
@@ -131,28 +141,19 @@ def response(state: AppState):
     generator = generate_response_and_audio(audio_buffer.getvalue(), state)
-    # Process the generator to get the final results
-    final_text = ""
-    final_asr = ""
-    final_audio = None
-    for text, asr, audio, updated_state in generator:
-        final_text = text if text else final_text
-        final_asr = asr if asr else final_asr
-        final_audio = audio if audio else final_audio
         state = updated_state
-    # Update the chatbot with the final conversation
-    state.conversation.append({"role": "user", "content": final_asr})
-    state.conversation.append({"role": "assistant", "content": final_text})
     # Reset the audio stream for the next interaction
     state.stream = None
     state.pause_detected = False
-    chatbot_output = state.conversation[-2:]  # Get the last two messages
-    return chatbot_output, final_audio, state
 def start_recording_user(state: AppState):
     if not state.stopped:

 from dataclasses import dataclass, field
 from threading import Lock
 import base64
+import uuid
 @dataclass
         return None, state
+def update_or_append_conversation(conversation, id, role, new_content):
+    for entry in conversation:
+        if entry["id"] == id and entry["role"] == role:
+            entry["content"] = new_content
+            return
+    conversation.append({"id": id, "role": role, "content": new_content})
 def generate_response_and_audio(audio_bytes: bytes, state: AppState):
     if state.client is None:
         raise gr.Error("Please enter a valid API key first.")
         full_response = ""
         asr_result = ""
         audios = []
+        id = uuid.uuid4()
         for chunk in stream:
             if not chunk.choices:
             asr_results = getattr(chunk.choices[0], "asr_results", [])
             if asr_results:
                 asr_result += "".join(asr_results)
+                yield id, full_response, asr_result, None, state
             if content:
                 full_response += content
+                yield id, full_response, asr_result, None, state
             if audio:
                 audios.extend(audio)
         final_audio = b"".join([base64.b64decode(a) for a in audios])
+        yield id, full_response, asr_result, final_audio, state
     except Exception as e:
         raise gr.Error(f"Error during audio streaming: {e}")
     generator = generate_response_and_audio(audio_buffer.getvalue(), state)
+    for id, text, asr, audio, updated_state in generator:
         state = updated_state
+        if asr:
+            update_or_append_conversation(state.conversation, id, "user", asr)
+        if text:
+            update_or_append_conversation(state.conversation, id, "assistant", text)
+        chatbot_output = state.conversation
+        yield chatbot_output, audio, state
     # Reset the audio stream for the next interaction
     state.stream = None
     state.pause_detected = False
 def start_recording_user(state: AppState):
     if not state.stopped: