Spaces:

facebook
/

XLS-R-300m-EN-15

Build error

App Files Files Community

patrickvonplaten commited on Nov 17, 2021

Commit

9900ba7

1 Parent(s): 04e8018

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -23

app.py CHANGED Viewed

@@ -1,18 +1,8 @@
-import soundfile as sf
 import torch
 from transformers import SpeechEncoderDecoder, Wav2Vec2Processor
 import gradio as gr
 import scipy.signal as sps
-import sox
-def convert(inputfile, outfile):
-    sox_tfm = sox.Transformer()
-    sox_tfm.set_output_format(
-        file_type="wav", channels=1, encoding="signed-integer", rate=16000, bits=16
-    )
-    #print(this is not done)
-    sox_tfm.build(inputfile, outfile)
 def read_file(wav):
     sample_rate, signal = wav
     signal = signal.mean(-1)
@@ -21,12 +11,6 @@ def read_file(wav):
     return resampled_signal
 def parse_transcription(wav_file):
-    '''
-    filename = wav_file.name.split('.')[0]
-    convert(wav_file.name, filename + "16k.wav")
-    speech, _ = sf.read(filename + "16k.wav")
-    '''
     speech = read_file(wav_file)
     input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values
     logits = model(input_values).logits
@@ -35,14 +19,10 @@ def parse_transcription(wav_file):
     return transcription
-processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
-model = SpeechEncoderDecoder.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
-processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
-model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
 #input_ = gr.inputs.Audio(source="microphone", type="file")
 input_ = gr.inputs.Audio(source="microphone", type="numpy")
 gr.Interface(parse_transcription, inputs = input_,  outputs="text",

 import torch
 from transformers import SpeechEncoderDecoder, Wav2Vec2Processor
 import gradio as gr
 import scipy.signal as sps
 def read_file(wav):
     sample_rate, signal = wav
     signal = signal.mean(-1)
     return resampled_signal
 def parse_transcription(wav_file):
     speech = read_file(wav_file)
     input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values
     logits = model(input_values).logits
     return transcription
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15", use_auth_token="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")
+model = SpeechEncoderDecoder.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15", use_auth_token="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")
 #input_ = gr.inputs.Audio(source="microphone", type="file")
 input_ = gr.inputs.Audio(source="microphone", type="numpy")
 gr.Interface(parse_transcription, inputs = input_,  outputs="text",