3D-Speaker-MT.axera

meeting transcription demo on Axera

  • Python 示例
  • C++ 示例

Convert tools links:

For those who are interested in model conversion, you can try to export axmodel through the original repo :

How to Convert from ONNX to axmodel

支持平台

  • AX650N

功能

会议音频转录

模型转换

参考模型转换

上板部署

  • AX650N 的设备已预装 Ubuntu22.04
  • 以 root 权限登陆 AX650N 的板卡设备
  • 链接互联网,确保 AX650N 的设备能正常执行 apt install, pip install 等指令
  • 已验证设备:AX650N DEMO Board

Python API 运行

在python3.10(验证)
Requirements

pip3 install -r requirements.txt

在开发板运行以下命令

支持输入音频文件格式:wav,mp3
python3 ax_meeting_transc_demo.py --output_dir output_dir --wav_file wav/vad_example.wav

运行参数说明:

参数名称 说明
--output_dir 结果保存路径
--wav_file 音频路径
--seq_len ASR输入一致,目前固定132

输出保存为txt文件,具体结果如下:

Speaker_0: [0.000 63.810] 试错的过程很简单,而且特别是今天报名仓雪卡的同学,你们可以。听到后面的有专门的活动课,他会大大降低你的试绸成本。其实你也可以不来听课。为什么你自己写嘛?我写今天写5个点,我就试试试验一下,反正这5个点不行,我再写5个点,这是再不行。那再写5个点吧,。你总会所谓的活动大神和所谓的高手都是只有一个。把所有的错,所有的坑全国趟一遍,留下正确的你就是所谓的大神。明白吗?所以说关于活动通过这一块,我只送给你们四个字啊,换位思考。如果说你要想降低。你的试错成本,今天来这里你们就是对的。。因为有畅血唱血卡这个机会,所以说关于活动过于不过这个问题,或者活动很难通过这个话题。呃,如果真的。那要坐下来聊的话,要聊一天。但是我觉得我刚才说的四个字足够。好,谢谢。
Speaker_1: [63.810 70.471] 好,非常感谢那个三茂老师的回答啊。三茂老师说我们在。整个店铺的这个活动当中,我们要学会换位思考。其实我。

Latency

AX650N

model latency(ms)
vad 5.441
cammplus 2.907
sensevoice 25.482

RTF: 约为0.2

eg:
Inference time for vad_example.wav: 10.92 seconds
  - VAD processing time: 2.20 seconds
  - Speaker embedding extraction time: 1.88 seconds
  - Speaker clustering time: 0.16 seconds
  - ASR processing time: 3.75 seconds
load model  + Inference time for vad_example.wav: 13.08 seconds
Audio duration: 70.47 seconds
RTF: 0.15

参考:

技术讨论

  • Github issues
  • QQ 群: 139953715
Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for AXERA-TECH/3D-Speaker-MT.axera

Finetuned
(3)
this model

Collection including AXERA-TECH/3D-Speaker-MT.axera