]> Sergey Matveev's repositories - stargrave-blog.git/commit
voxtral.c
authorSergey Matveev <stargrave@stargrave.org>
Tue, 10 Feb 2026 19:40:45 +0000 (22:40 +0300)
committerSergey Matveev <stargrave@stargrave.org>
Tue, 10 Feb 2026 19:40:45 +0000 (22:40 +0300)
commitf62c8d3eaf8e4efc593eeb2ff565622e8175a3f4
tree4b825dc642cb6eb9a060e54bf8d69288fbee4904
parent623229f2cd8a2891f30e4b2504789c1c8000430e
voxtral.c

https://habr.com/ru/news/994952/
https://github.com/antirez/voxtral.c
antirez написал распознаватель речи на чистом Си, без зависимостей.
Это оказалось не правдой, ибо всё равно нужна либо Accelerate
зависимость от macOS (ну да, которая из коробки есть, но какой
нормальный человек будет использовать это проприетарное ПО?), либо
(Open?)BLAS. Поставив OpenBLAS, всё собралось без проблем. >8GB модель
ещё надо скачать. Большую часть времени оно не распараллеливается,
поэтому работает медленнее whisper.cpp. Но русский распознаёт хорошо.
Подкаст на котором сравниваю: он идеально распознан и в whisper.cpp,
поэтому пока не могу сказать и понять кто из них лучше. Деление на
предложения у Voxtral-Mini-4B-Realtime-2602 модели идёт похуже вроде,
но не уверен что это можно за прям уж недостаток считать. Буду
сравнивать, как другие подкасты под руку попадутся.

С whisper.cpp у меня то в целом претензий нет, да и вывод у него с
таймингами поприятнее, плюс вообще никаких зависимостей и более быстрая
работа (но это наверное с меньшей по размеру моделью связано?). Были
проблемы с зацикливанием, на самой свежей модели. На более старой всё же
один или два раза они тоже случились, но (пере)запуская со смещением по
времени позволяет продолжить распознавание. Просто это оценить может
только человек -- сам whisper.cpp не понимает что "слетел" с катушек.