]> Sergey Matveev's repositories - stargrave-blog.git/commit
Впервые потрогал что-то связанное с нейросетями
authorSergey Matveev <stargrave@stargrave.org>
Sun, 17 Sep 2023 19:10:00 +0000 (22:10 +0300)
committerSergey Matveev <stargrave@stargrave.org>
Sun, 17 Sep 2023 19:10:00 +0000 (22:10 +0300)
commit94cf819e49d4e1f78279ef001bd2a9556b8004f3
tree4b825dc642cb6eb9a060e54bf8d69288fbee4904
parent1cd2d669f6b00f86b00ff90c04010b4b3bdf2995
Впервые потрогал что-то связанное с нейросетями

https://github.com/ggerganov/whisper.cpp
Программа которая может транскрибировать аудиофайлы. Зависимостей для
сборки не требует. Но нужно скачать модель. Я использовал "large"
модель, которая 3GB+ требует памяти -- для меня копейки. Решил проверить
на аудиокниге из "Созвездия льва" (859b583e6ea48f5bb3de8338274d7fe936c2f225)
"Роберт Шекли -- О высоких материях". Книга длится 357 сек. На восьми
ядрах NUC работа заняла 504 сек. То бишь, в полтора раза медленнее чем
неспешное чтение книги.

    [...]
    [00:04:03.440 --> 00:04:11.960]   несамостоятельность. Лапух. Любому неприятно было бы угодить в подобный переплет. Но что же в
    [00:04:11.960 --> 00:04:19.280]   жизни главное? Мортенсен загасил сигарету и вспомнил, что она у него последняя. Тьфу,
    [00:04:19.280 --> 00:04:25.760]   только не отвлекаться. Главное в жизни — сомнение, желание, стремление к цели,
    [00:04:25.760 --> 00:04:34.040]   наслаждение. Потерев лоб, Мортенсен громко, хоть и слегка дрожащим голосом, выговорил — главное
    [00:04:34.040 --> 00:04:43.280]   в жизни — воспламенение. Воцарилась зловещая тишина. Выждав пристойный по своим понятиям срок,
    [00:04:43.280 --> 00:04:52.280]   Мортенсен спросил — угадал я или нет? — Воспламенение, — пророкотал возвышенный
    [00:04:52.280 --> 00:05:04.520]   могущественный глаз. — Чересчур длинно. Горение? Тоже длинновато. Огонь! Главное в жизни — огонь.
    [00:05:04.520 --> 00:05:14.240]   Подходит. — Я и имел в виду огонь, — вывернулся Мортенсен. — Ты меня действительно выручил,
    [00:05:14.240 --> 00:05:20.080]   — заверил голос. — Ведь я прямо завяз на этом слове. А теперь помоги разобраться
    [00:05:20.080 --> 00:05:26.560]   с семьдесят восьмым по горизонтали. Отчество изобретателя бесфрикционного привода для
    [00:05:26.560 --> 00:05:31.960]   звездолётов. Четвёртая буква «Д» вертится на языке, да вот никак не поймаю.
    [00:05:31.960 --> 00:05:38.680]   По словам Мортенсена, тут он повернулся кругом и пошёл себе в освояси подальше от
    [00:05:38.680 --> 00:05:48.040]   неземного глаза и от высоких материй. Роберт Шекли
    [00:05:48.040 --> 00:05:53.720]   О высоких материях Рассказ читал Олег Булдаков
    [00:05:53.720 --> 00:05:58.480]   [музыка]

Это конечно не готовый для публикации текст, есть косячки, но в целом
всё отлично. Но это очень качественно записанная книга с качественным
диктором. А как оно справится например с моей презентацией NNCP на
CryptoInstallFest?

    [00:00:10.000 --> 00:00:16.000]   Всем привет! Сергей Матвеев, я разработчик заданного программа "Досучение" и "Шифровал".
    [00:00:16.000 --> 00:00:23.000]   Сегодня я хотел бы рассказать про NCP, это набор утилит, которые позволяют строить в сторону форвард-сети,
    [00:00:23.000 --> 00:00:29.000]   которые можно использовать, например, для построения независимых от интернета сети передачи данных.
    [00:00:29.000 --> 00:00:34.000]   Про эту тему я уже рассказывал в прошлом году на CryptoCentralFest,
    [00:00:34.000 --> 00:00:38.000]   эта тема просто немного более расширена.
    [00:00:38.000 --> 00:00:48.000]   В предыдущей лекции все отлично сказали про все наши проблемы с интернетом,
    [00:00:48.000 --> 00:00:58.000]   про то, что мы его по сути потеряли, теряем, и я уверен, безвозвратно, и у нас огромные проблемы.
    [00:00:58.000 --> 00:01:05.000]   То есть интернет, как некое чудо света, когда два произвольных компьютера между собой могут обменяться произвольными данными,
    [00:01:05.000 --> 00:01:12.000]   мы вовсю теряем. И восстановить это я не знаю как, это невозможно.
    [...]
    [00:04:39.000 --> 00:04:45.000]   Это клиент включается к серверу и ему дают, в общем-то, просто закрытую программу,
    [00:04:45.000 --> 00:04:49.000]   99%, что это будет отдельно стервенный natural script код, сравнение с эндвером.
    [00:04:49.000 --> 00:04:53.000]   И эта программа полностью контролирует, что он может сделать,
    [...]
    [00:06:04.000 --> 00:06:09.000]   Какие решения? Очевидно, прокладывать собственный канал связи, как говорят, дорого,
    [00:06:09.000 --> 00:06:12.000]   просто и смертно это не могут сделать, и если у нас будет вайп-рейс блокировки,

местами я даже не понимаю о чём речь и не могу вспомнить что именно то я
говорил? Но большая часть текста вполне себе понятна и читабельна. Всё
же и я говорю не очень, и запись не очень, и язык с жаргонами и
подобным. Я не знаю хороший ли это результат или нет, но вообще меня
впечатляет. А то как-то я вот не слышу чтобы в кой да веки но был сделан
что синтезатор речи отличный (хотя вроде бы very good enough уже есть),
что распознаватор.

Добавление -mavx512f флага показывает что AVX512 включён (на новом
сервере моём), но это не то чтобы ощутимо помогает: 532 vs 547 сек.