SileroVAD

流式语音端点识别

Demo

python main.py --input demo.wav --output_dir output --model silero_vad.onnx

被分段的语音后保存在output目录中

pip install gradio

python gradio_app.py

vad = StreamVAD(args.model, 
                    sensitivity=0.5,
                    silence_ms=200)

运行

for result in vad.run(audio, vad.model.sr):
    if result:
        print(result)

result的格式为:

{
    'start_ts': 语音开始的时间
    'end_ts': 语音结束的时间
    'audio': 语音数据
}

时间戳的格式可通过StreamVAD.datetime_format设置

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support