Spaces:

Hatman
/

Audio-Emotion-Recognition

Running on Zero

Hatman commited on Jul 25, 2024

Commit

f24fccb

1 Parent(s): 8a7312c

Testing

Files changed (2) hide show

app.py CHANGED Viewed

@@ -9,7 +9,8 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model_name = "Hemg/human-emotion-detection"
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
-model.to(device)
 def preprocess_audio(audio):
     waveform, sampling_rate = torchaudio.load(audio)
@@ -20,7 +21,7 @@ def preprocess_audio(audio):
 def inference(audio):
     example = preprocess_audio(audio)
     inputs = feature_extractor(example['speech'], sampling_rate=16000, return_tensors="pt", padding=True)
-    inputs = inputs.to(device)  # Move inputs to GPU
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
@@ -29,11 +30,9 @@ def inference(audio):
 iface = gr.Interface(fn=inference,
                      inputs=gr.Audio(type="filepath"),
-                     outputs=[gr.Label(label="Predicted Sentiment"),
-                              gr.JSON(label="Logits"),
-                              gr.JSON(label="Predicted ID")],
                      title="Audio Sentiment Analysis",
                      description="Upload an audio file or record one to analyze sentiment.")
-iface.launch(share=True)

 model_name = "Hemg/human-emotion-detection"
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
+print(device)
 def preprocess_audio(audio):
     waveform, sampling_rate = torchaudio.load(audio)
 def inference(audio):
     example = preprocess_audio(audio)
     inputs = feature_extractor(example['speech'], sampling_rate=16000, return_tensors="pt", padding=True)
+    inputs = inputs # Move inputs to GPU
     with torch.no_grad():
         logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
 iface = gr.Interface(fn=inference,
                      inputs=gr.Audio(type="filepath"),
+                     outputs=[gr.Label(label="Predicted Sentiment")],
                      title="Audio Sentiment Analysis",
                      description="Upload an audio file or record one to analyze sentiment.")
+iface.launch()

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 torch
 transformers
 accelerate
-torchaudio

 torch
 transformers
 accelerate
+torchaudio
+accelerate