Оптимизация инференса на RTX 5090: поддержка 8кГц и проблема утилизации GPU в Triton
Добрый день! Внедряем T-ONE для оффлайн-аналитики звонков. Разворачиваем на сервере с NVIDIA RTX 5090 (32GB VRAM).
Столкнулись с двумя проблемами производительности, хотели бы получить совет от разработчиков:
- Проблема с 8 кГц. Исходные записи — телефония 8 кГц. Модель требует 16 кГц или нет? Сейчас делаем апсэмплинг на CPU, из-за чего процесс упирается в процессор, а видеокарта простаивает.
Вопрос: Существует ли чекпоинт модели, обученный нативно на 8 кГц? Или планируется ли такой релиз?
- Проблема запуска на GPU через Triton. Однако по мониторингу nvidia-smi нагрузка на GPU нулевая, вычисления идут на CPU.
instance_group [ { count: 16, kind: KIND_GPU } ]
Если коротко, то как t-one использовать на gpu?
Будем благодарны за любые рекомендации по архитектуре.
@Dzmytry
Добрый день!
Поддержка 8 кГц нативная, чекпойнт обучен только на 8 кГц, ничего апсемплить не нужно. Модель требует как раз 8 кГц.
Для запуска на GPU попробуйте воспользоваться инструкцией https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md, если возникнут проблемы -- напишите issue на github, пожалуйста.
@RootMoscow просьба не дезинформировать других неверными ответами от LLM.