facebook
/

seamless-m4t-v2-large

@@ -185,13 +185,13 @@ model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
 # from text
 text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")
-audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
 # from audio
 audio, orig_freq =  torchaudio.load("https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav")
 audio =  torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
 audio_inputs = processor(audios=audio, return_tensors="pt")
-audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
 ```
 3. Listen to the audio samples either in an ipynb notebook:
@@ -200,18 +200,18 @@ audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu()
 from IPython.display import Audio
 sample_rate = model.sampling_rate
-Audio(audio_array_from_text, rate=sample_rate)
-# Audio(audio_array_from_audio, rate=sample_rate)
 ```
-Or save them as a `.wav` file using a third-party library, e.g. `scipy`:
 ```py
-import scipy
 sample_rate = model.sampling_rate
-scipy.io.wavfile.write("out_from_text.wav", rate=sample_rate, data=audio_array_from_text)
-# scipy.io.wavfile.write("out_from_audio.wav", rate=sample_rate, data=audio_array_from_audio)
 ```
 For more details on using the SeamlessM4T model for inference using the 🤗 Transformers library, refer to the
 **[SeamlessM4T v2 docs](https://huggingface.co/docs/transformers/main/en/model_doc/seamless_m4t_v2)** or to this **hands-on [Google Colab](https://colab.research.google.com/github/ylacombe/scripts_and_notebooks/blob/main/v2_seamless_m4t_hugging_face.ipynb).**

 # from text
 text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")
+audio_tensor_from_text = model.generate(**text_inputs, tgt_lang="rus")[0]
 # from audio
 audio, orig_freq =  torchaudio.load("https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav")
 audio =  torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
 audio_inputs = processor(audios=audio, return_tensors="pt")
+audio_tensor_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0]
 ```
 3. Listen to the audio samples either in an ipynb notebook:
 from IPython.display import Audio
 sample_rate = model.sampling_rate
+Audio(audio_tensor_from_text.cpu().numpy().squeeze(), rate=sample_rate)
+# Audio(audio_tensor_from_audio.cpu().numpy().squeeze(), rate=sample_rate)
 ```
+Or save them as a `.wav` file:
 ```py
+import torchaudio
 sample_rate = model.sampling_rate
+torchaudio.save(uri="out_from_text.wav", src=audio_tensor_from_text, sample_rate=sample_rate, channels_first=True)
+# torchaudio.save(uri="out_from_audio.wav", src=audio_tensor_from_audio, sample_rate=sample_rate, channels_first=True)
 ```
 For more details on using the SeamlessM4T model for inference using the 🤗 Transformers library, refer to the
 **[SeamlessM4T v2 docs](https://huggingface.co/docs/transformers/main/en/model_doc/seamless_m4t_v2)** or to this **hands-on [Google Colab](https://colab.research.google.com/github/ylacombe/scripts_and_notebooks/blob/main/v2_seamless_m4t_hugging_face.ipynb).**