Spaces:

WillHeld
/

diva-audio-chat

Running on Zero

App Files Files Community

Helw150 commited on 7 days ago

Commit

a74d5f9

•

1 Parent(s): e2607b6

Buffer TTS and Fix Selector

Browse files

Files changed (1) hide show

app.py +13 -4

app.py CHANGED Viewed

@@ -104,6 +104,7 @@ def response(state: AppState, audio: tuple):
     prev_outs = causal_outs
     stream = orca.stream_open()
     for resp, outs in diva_audio(
         (audio[0], audio[1]),
         prev_outs=(prev_outs if prev_outs is not None else None),
@@ -115,12 +116,18 @@ def response(state: AppState, audio: tuple):
         pcm = stream.synthesize(resp[len(prev_resp) :])
         audio_chunk = None
         if pcm is not None:
             mp3_io = io.BytesIO()
             sf.write(
-                mp3_io, np.asarray(pcm).astype(np.int16), orca.sample_rate, format="mp3"
             )
             audio_chunk = mp3_io.getvalue()
             mp3_io.close()
         yield state, state.conversation, audio_chunk
     del outs.logits
@@ -132,10 +139,12 @@ def response(state: AppState, audio: tuple):
     audio_chunk = None
     pcm = stream.flush()
     if pcm is not None:
-        audio_chunk = np.asarray(pcm).tobytes()
         mp3_io = io.BytesIO()
         sf.write(
-            mp3_io, np.asarray(pcm).astype(np.int16), orca.sample_rate, format="mp3"
         )
         audio_chunk = mp3_io.getvalue()
         mp3_io.close()
@@ -183,7 +192,7 @@ async function main() {
     const myvad = await vad.MicVAD.new({
       onSpeechStart: () => {
         var record = document.querySelector('.record-button');
-        var player = document.querySelector('#streaming-out')
         if (record != null && (player == null || player.paused)) {
           console.log(record);
           record.click();

     prev_outs = causal_outs
     stream = orca.stream_open()
+    buff = []
     for resp, outs in diva_audio(
         (audio[0], audio[1]),
         prev_outs=(prev_outs if prev_outs is not None else None),
         pcm = stream.synthesize(resp[len(prev_resp) :])
         audio_chunk = None
         if pcm is not None:
+            buff.extend(pcm)
+        if len(buff) > (orca.sample_rate * 2):
             mp3_io = io.BytesIO()
             sf.write(
+                mp3_io,
+                np.asarray(buff[: orca.sample_rate]).astype(np.int16),
+                orca.sample_rate,
+                format="mp3",
             )
             audio_chunk = mp3_io.getvalue()
             mp3_io.close()
+            buff = buff[orca.sample_rate :]
         yield state, state.conversation, audio_chunk
     del outs.logits
     audio_chunk = None
     pcm = stream.flush()
     if pcm is not None:
         mp3_io = io.BytesIO()
         sf.write(
+            mp3_io,
+            np.asarray(buff + pcm).astype(np.int16),
+            orca.sample_rate,
+            format="mp3",
         )
         audio_chunk = mp3_io.getvalue()
         mp3_io.close()
     const myvad = await vad.MicVAD.new({
       onSpeechStart: () => {
         var record = document.querySelector('.record-button');
+        var player = document.getElementById("streaming_out").querySelector(".standard-player")
         if (record != null && (player == null || player.paused)) {
           console.log(record);
           record.click();