--- license: mit language: - en - zh pipeline_tag: audio-text-to-text base_model: - FunAudioLLM/SenseVoiceSmall tags: - VAD - ASR --- # 3D-Speaker-MT.axera meeting transcription demo on Axera - [x] Python 示例 - [ ] C++ 示例 ## Convert tools links: For those who are interested in model conversion, you can try to export axmodel through the original repo : [How to Convert from ONNX to axmodel](https://github.com/AXERA-TECH/3D-Speaker-MT.axera) ## 支持平台 - AX650N ## 功能 - 会议音频转录与总结 ## 模型转换 参考[模型转换](https://github.com/AXERA-TECH/3D-Speaker-MT.axera/tree/main/model_convert) ## 上板部署 - AX650N 的设备已预装 Ubuntu22.04 - 以 root 权限登陆 AX650N 的板卡设备 - 链接互联网,确保 AX650N 的设备能正常执行 apt install, pip install 等指令 - 已验证设备:AX650N DEMO Board ## Python API 运行 在python3.10(验证) Requirements ``` pip3 install -r requirements.txt ``` ## 在开发板运行以下命令 ``` 支持输入音频文件格式:wav,mp3 ``` ``` python3 ax_meeting_transc_demo.py --output_dir output_dir --wav_file wav/vad_example.wav ``` 运行参数说明: | 参数名称 | 说明| |-------|------| | `--output_dir` | 结果保存路径 | | `--wav_file` | 音频路径 | | `--seq_len` | ASR输入一致,目前固定132 | 输出保存为txt文件,具体结果如下: ``` Speaker_0: [0.000 63.810] 试错的过程很简单,而且特别是今天报名仓雪卡的同学,你们可以。听到后面的有专门的活动课,他会大大降低你的试绸成本。其实你也可以不来听课。为什么你自己写嘛?我写今天写5个点,我就试试试验一下,反正这5个点不行,我再写5个点,这是再不行。那再写5个点吧,。你总会所谓的活动大神和所谓的高手都是只有一个。把所有的错,所有的坑全国趟一遍,留下正确的你就是所谓的大神。明白吗?所以说关于活动通过这一块,我只送给你们四个字啊,换位思考。如果说你要想降低。你的试错成本,今天来这里你们就是对的。。因为有畅血唱血卡这个机会,所以说关于活动过于不过这个问题,或者活动很难通过这个话题。呃,如果真的。那要坐下来聊的话,要聊一天。但是我觉得我刚才说的四个字足够。好,谢谢。 Speaker_1: [63.810 70.471] 好,非常感谢那个三茂老师的回答啊。三茂老师说我们在。整个店铺的这个活动当中,我们要学会换位思考。其实我。 ``` ## Latency AX650N | model | latency(ms) | |------|------| | vad | `5.441` | | cammplus | `2.907` | | sensevoice | `25.482` | RTF: 约为0.2 ``` eg: Inference time for vad_example.wav: 10.92 seconds - VAD processing time: 2.20 seconds - Speaker embedding extraction time: 1.88 seconds - Speaker clustering time: 0.16 seconds - ASR processing time: 3.75 seconds load model + Inference time for vad_example.wav: 13.08 seconds Audio duration: 70.47 seconds RTF: 0.15 ``` --- 执行 `demo.py` 获取完整的会议记录总结: > 注意: LLM 部分使用 Qwen3-4B-Int4 (36 Layers), 8K 上下文, 采用 4 + 4 模式编译 (即 4k prefill + 4k decode 的模式). ```sh python3 demo.py --output_dir output_dir --wav_file wav/vad_example.wav ``` 输出: ```sh Model loaded successfully! slice_indices: [0, 1] Slice prefill done: 0 Slice prefill done: 1 answer >> **参会人员总结:** 会议中明确出现的发言人包括: - **三茂老师**(也称“Speaker_0”):主讲人,围绕“活动试错成本”“换位思考”等核心议题进行分享,提出“换位思考”是降低试错成本的关键方法,并强调“活动大神”是通过遍历所有错误后才形成的。 - **另一位与会者**(Speaker_1):在三茂老师发言后进行补充,表示认同其观点,进一步展开“换位思考”在店铺活动中的实践意义。 --- **内容摘要:** 本次会议聚焦于**活动策划与执行中的试错成本问题**,核心观点如下: 1. **降低试错成本的关键是“换位思考”**: 三茂老师指出,真正“厉害”的活动从业者并非天生聪明,而是通过不断尝试、犯错、总结,将所有“坑”都走一遍,最终留下正确路径。因此,建议参与者以“换位思考”视角去理解用户需求与活动设计,从而减少盲目试错。 2. **试错是必经之路,但可被优化**: 会议强调,即使不参加听课,参与者也可以自行尝试(如“写5个点,不行就再写”),但通过“畅血卡”等报名机会,可获得专业指导与资源,显著降低试错成本。 3. **“活动大神”本质是“经历过所有错误的人”**: 三茂老师用“把所有错都走一遍”来解释高手的形成路径,打破“天赋论”,强调实践与反思的重要性。 4. **会议主题明确但未深入展开**: 虽然三茂老师提出“换位思考”作为核心,但未展开具体案例或操作步骤,也未深入讨论活动通过率、流程设计等细节,后续可进一步探讨。 **结论:** 本次会议以“换位思考”为核心理念,倡导参与者以用户视角出发,主动试错、反思、迭代,从而在活动策划中实现低成本、高效率的实践路径。参会者主要为对活动运营感兴趣的学习者或从业者,会议内容具有启发性但尚属初步引导。 --- 输入 token 数: 360 输出 token 数: 487 kv cache 总长度: 8191 ``` LLM 子图耗时统计: ```sh g0: 7.223 ms g1: 42.440 ms g2: 72.761 ms g3: 107.597 ms g4: 152.216 ms g5: 189.962 ms g6: 223.133 ms g7: 263.517 ms g8: 301.006 ms g9: 333.888 ms g10: 362.304 ms g11: 404.907 ms g12: 442.639 ms g13: 481.309 ms g14: 520.008 ms g15: 549.459 ms g16: 588.102 ms g17: 625.447 ms ``` LLM 后处理耗时: ```sh qwen3_post.axmodel: 19.455 ms ``` 最长 TTFT 耗时: `203804.475 ms`, 约 `20` tokens/s Deocde: `279.483 ms`, 约 `3.5` tokens/s 参考: - [3D-Speaker](https://https://github.com/modelscope/3D-Speaker/tree/main) - [sensevoice.axera](https://github.com/ml-inory/sensevoice.axera/tree/main) - [3D-Speaker.axera](https://github.com/AXERA-TECH/3D-Speaker.axera/tree/master) ## 技术讨论 - Github issues - QQ 群: 139953715