SileroVAD

流式语音端点识别

Demo

CLI

python main.py --input demo.wav --output_dir output --model silero_vad.onnx

被分段的语音后保存在output目录中

Gradio

pip install gradio

python gradio_app.py

在项目中使用

  1. 复制silero_vad.onnx SileroOrt.py StreamVAD.py 三个文件到项目中
  2. from StreamVAD import StreamVAD
  3. 初始化
vad = StreamVAD(args.model, 
                    sensitivity=0.5,
                    silence_ms=200)

运行

for result in vad.run(audio, vad.model.sr):
    if result:
        print(result)

result的格式为:

{
    'start_ts': 语音开始的时间
    'end_ts': 语音结束的时间
    'audio': 语音数据
}

时间戳的格式可通过StreamVAD.datetime_format设置

Downloads last month
14
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including AXERA-TECH/SileroVAD