Spaces:

Apedlop
/

prueba

Running

App Files Files Community

Apedlop commited on 2 days ago

Commit

5bb262a

1 Parent(s): 3572569

.

Browse files

Files changed (8) hide show

.env.plantilla +1 -0
.gitignore +2 -1
diffusers_disc.py +65 -0
app4.py → diffusers_empr.py +0 -0
app3.py → inf_prov_disc.py +5 -1
inf_prov_empr.py +17 -0
app1.py → transformer_disc.py +0 -0
app2.py → transformer_empr.py +0 -0

.env.plantilla ADDED Viewed

	@@ -0,0 +1 @@


1	+ TOKEN=""

.gitignore CHANGED Viewed

	@@ -1 +1,2 @@
1	- venv_prueba/


1	+ venv_prueba/
2	+ .env

diffusers_disc.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import gradio as gr
+import torch
+import soundfile as sf
+from PIL import Image
+from transformers import pipeline
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from datasets import load_dataset
+# -------------------------
+# MODELO IMAGEN -> TEXTO
+# -------------------------
+modeloObtenerTextoImagen = pipeline(
+    "image-to-text",
+    model="Salesforce/blip-image-captioning-base"
+)
+# -------------------------
+# MODELO TEXTO -> AUDIO
+# -------------------------
+processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+modeloTextoAudio = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+# Voz base
+dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = torch.tensor(dataset[0]["xvector"]).unsqueeze(0)
+# -------------------------
+# FUNCIÓN PRINCIPAL
+# -------------------------
+def obtenerDescripcionAudio(imagen):
+    # Imagen -> Texto
+    resultadoModeloTI = modeloObtenerTextoImagen(Image.fromarray(imagen))
+    texto_generado = resultadoModeloTI[0]["generated_text"]
+    print(f"La frase obtenida de la imagen es: {texto_generado}")
+    # Texto -> Audio
+    inputs = processor(text=texto_generado, return_tensors="pt")
+    audio = modeloTextoAudio.generate_speech(
+        inputs["input_ids"],
+        speaker_embeddings,
+        vocoder=vocoder
+    )
+    ruta_audio = "audio_salida.wav"
+    sf.write(ruta_audio, audio.numpy(), samplerate=16000)
+    return texto_generado, ruta_audio
+# -------------------------
+# INTERFAZ GRADIO
+# -------------------------
+demo = gr.Interface(
+    fn=obtenerDescripcionAudio,
+    inputs=gr.Image(label="📷 Sube una imagen"),
+    outputs=[
+        gr.Textbox(label="📝 Texto generado"),
+        gr.Audio(label="🔊 Audio generado", type="filepath")
+    ],
+    title="Asistente Visual Accesible",
+    description="Sube una imagen y la aplicación describe lo que ve y lo lee en voz alta."
+)
+demo.launch(share=True)

app4.py → diffusers_empr.py RENAMED Viewed

File without changes

app3.py → inf_prov_disc.py RENAMED Viewed

@@ -1,9 +1,13 @@
 import os
 import requests
 API_URL = "https://router.huggingface.co/hf-inference/models/philschmid/bart-large-cnn-samsum"
 headers = {
-    "Authorization": f"Bearer [token here]",
 }
 def query(payload):

 import os
+from dotenv import load_dotenv
 import requests
+load_dotenv()
 API_URL = "https://router.huggingface.co/hf-inference/models/philschmid/bart-large-cnn-samsum"
+TOKEN = os.getenv("TOKEN")
 headers = {
+    "Authorization": f"Bearer {TOKEN}",
 }
 def query(payload):

inf_prov_empr.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from huggingface_hub import InferenceClient
+from dotenv import load_dotenv
+import os
+load_dotenv()
+client = InferenceClient(
+    provider="hf-inference",
+    api_key=os.getenv("TOKEN"),
+)
+output = client.image_segmentation(
+    "https://s1.ppllstatics.com/mujerhoy/www/multimedia/202306/02/media/cortadas/[email protected]",
+    model="jonathandinu/face-parsing"
+)
+print(output)

app1.py → transformer_disc.py RENAMED Viewed

File without changes

app2.py → transformer_empr.py RENAMED Viewed

File without changes