Spaces:

GitMylo
/

bark-voice-cloning

Running

Mylo commited on Jun 20, 2023

Commit

62895ea

•

1 Parent(s): c1a6347

Bug fix, (why did it take this long to get a bug report?) #2

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,17 +24,21 @@ encodec_model = EncodecModel.encodec_model_24khz()
 def clone(audio, *args):
     sr, wav = audio
     if wav.shape[0] == 2:  # Stereo to mono if needed
         wav = wav.mean(0, keepdim=True)
     wav = wav[-int(sr*20):]  # Take only the last 20 seconds
-    duration = wav.shape[0]
     wav = wav.reshape(1, -1)  # Reshape from gradio style to HuBERT shape. (N, 1) to (1, N)
-    wav = torch.tensor(wav, dtype=torch.float32)
     semantic_vectors = hubert_model.forward(wav, input_sample_hz=sr)
     semantic_tokens = tokenizer_model.get_token(semantic_vectors)

 def clone(audio, *args):
     sr, wav = audio
+    wav = torch.tensor(wav)
+    if wav.dtype == torch.int16:
+        wav = wav.float() / 32767.0
     if wav.shape[0] == 2:  # Stereo to mono if needed
         wav = wav.mean(0, keepdim=True)
+    if wav.shape[1] == 2:
+        wav = wav.mean(1, keepdim=False).unsqueeze(-1)
     wav = wav[-int(sr*20):]  # Take only the last 20 seconds
     wav = wav.reshape(1, -1)  # Reshape from gradio style to HuBERT shape. (N, 1) to (1, N)
     semantic_vectors = hubert_model.forward(wav, input_sample_hz=sr)
     semantic_tokens = tokenizer_model.get_token(semantic_vectors)