Spaces:

aaronb
/

Anything2Image

Runtime error

App Files Files Community

laizeqiang commited on May 16, 2023

Commit

c160de1

•

1 Parent(s): b6d24d0

updaste

Browse files

Files changed (36) hide show

.gitattributes +2 -0
app.py +31 -14
assets/bird_image.jpg +0 -0
assets/car_image.jpg +0 -0
assets/dog_image.jpg +0 -0
assets/generated/audio_image_to_image/bird_rain.png +3 -0
assets/generated/audio_image_to_image/bird_wave.png +3 -0
assets/generated/audio_text_to_image/bird_a_painting.png +3 -0
assets/generated/audio_text_to_image/bird_a_photo.png +3 -0
assets/generated/audio_text_to_image/cat_a_painting.png +3 -0
assets/generated/audio_text_to_image/cat_a_photo.png +3 -0
assets/generated/audio_to_image/bird_audio.png +3 -0
assets/generated/audio_to_image/car_audio.png +3 -0
assets/generated/audio_to_image/cat.png +3 -0
assets/generated/audio_to_image/cattle.png +3 -0
assets/generated/audio_to_image/dog_audio.png +3 -0
assets/generated/audio_to_image/fire_engine.png +3 -0
assets/generated/audio_to_image/goat.png +3 -0
assets/generated/audio_to_image/motorcycle.png +3 -0
assets/generated/audio_to_image/plane.png +3 -0
assets/generated/audio_to_image/train.png +3 -0
assets/generated/bird_audio.png +0 -0
assets/generated/cattle.png +0 -0
assets/generated/dog_audio.png +0 -0
assets/generated/goat.png +0 -0
assets/generated/image_to_image/car_image.png +3 -0
assets/image/bird.png +3 -0
assets/image/bird_image.jpg +3 -0
assets/image/car_image.jpg +3 -0
assets/image/dog_image.jpg +3 -0
assets/wav/cat.wav +3 -0
assets/wav/fire_engine.wav +3 -0
assets/wav/motorcycle.wav +3 -0
assets/wav/plane.wav +3 -0
assets/wav/train.wav +3 -0
assets/wav/wave.wav +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import gradio as gr
 import imagebind
 import torch
 from diffusers import StableUnCLIPImg2ImgPipeline
-import soundfile as sf
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 pipe = StableUnCLIPImg2ImgPipeline.from_pretrained(
-    "stabilityai/stable-diffusion-2-1-unclip", torch_dtype=torch.float16, variation="fp16"
 )
 pipe = pipe.to(device)
@@ -15,18 +16,34 @@ model.eval()
 model.to(device)
 @torch.no_grad()
-def anything2img(prompt, audio):
-    sr, waveform = audio
-    audio_path = 'tmp.wav'
-    sf.write(audio_path, waveform, sr)
-    audio_paths=[audio_path]
-    embeddings = model.forward({
-        imagebind.ModalityType.AUDIO: imagebind.load_and_transform_audio_data(audio_paths, device),
-    })
-    embeddings = embeddings[imagebind.ModalityType.AUDIO]
-    images = pipe(prompt=prompt, image_embeds=embeddings.half()).images
     return images[0]
-demo = gr.Interface(fn=anything2img, inputs=["text", "audio"], outputs="image")
-demo.launch()

 import gradio as gr
 import imagebind
+import soundfile as sf
 import torch
 from diffusers import StableUnCLIPImg2ImgPipeline
+from PIL import Image
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 pipe = StableUnCLIPImg2ImgPipeline.from_pretrained(
+    "stabilityai/stable-diffusion-2-1-unclip",
 )
 pipe = pipe.to(device)
 model.to(device)
 @torch.no_grad()
+def anything2img(prompt, audio, image):
+    if audio is not None:
+        sr, waveform = audio
+        sf.write('tmp.wav', waveform, sr)
+        embeddings = model.forward({
+            imagebind.ModalityType.AUDIO: imagebind.load_and_transform_audio_data(['tmp.wav'], device),
+        })
+        audio_embeddings = embeddings[imagebind.ModalityType.AUDIO]
+    if image is not None:
+        Image.fromarray(image).save('tmp.png')
+        embeddings = model.forward({
+            imagebind.ModalityType.VISION: imagebind.load_and_transform_vision_data(['tmp.png'], device),
+        })
+        image_embeddings = embeddings[imagebind.ModalityType.VISION]
+    if audio_embeddings is not None and image_embeddings is not None:
+        embeddings = audio_embeddings + image_embeddings
+    elif image_embeddings is not None:
+        embeddings = image_embeddings
+    elif audio_embeddings is not None:
+        embeddings = audio_embeddings
+    else:
+        embeddings = None
+    images = pipe(prompt=prompt, image_embeds=embeddings).images
     return images[0]
+demo = gr.Interface(fn=anything2img, inputs=["text", "audio", "image"], outputs="image")
+# demo.launch(server_name='0.0.0.0', server_port=10051, share=True)
+demo.launch(server_name='0.0.0.0', server_port=10047, share=True)