🎤🔊 ОБСУЖДАЕМ ПРЕОБРАЗОВАНИЕ ТЕКСТА В ГОЛОС И КЛОНИРОВАНИЕ ГОЛОСОВ 🔊🎤 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🌟 ТОП ЛОКАЛЬНЫХ МОДЕЛЕЙ ПО КАЧЕСТВУ РУССКОГО ГОЛОСА НА МАРТ 2026 🌟
🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале! → zero-shot клон от 10–30 сек записи → 80+ языков (русский топ), теги эмоций [excited], [whisper], [angry], [laughing] и вообще дохуя → диалог между несколькими голосами → тяжёлая сучка (FP8 в 12 ГБ VRAM, full ~17 ГБ), но есть экспериментальный вариант для 6+ ГБ https://github.com/rodrigomatta/s2.cpp 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🧠 Qwen3-TTS → клон от 3–30 сек (ВАЖНО: без reference-транскрипта текста — хуйня, если хочешь поудобнее подключи сразу QwenASR) → VoiceDesign: пишешь «весёлая молодая девка с хрипотцой» — и получаешь голос → 10 языков, включая русский → диалог между спикерами → лёгкая — влезает в 6 ГБ VRAM 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🎙️ VibeVoice-7B от Майкрософт → тяжёлая, но 4-bit квантизация — запускается на 8 ГБ (проверено на 3070) → поддержка долгих спичей → подкаст-режим: 4 спикера одновременно → норм клонирование голоса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 ☁️ FL CosyVoice3 → ультралёгкий 0.5 — запустится даже на тостере → 9 языков, включая русский → zero-shot клон от 3–10 сек референса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🌍 Chatterbox Multilingual (23 языка, включая русский) → zero-shot клонирование голоса 🎤 F5-tts → zero-shot клонирование голоса → официально русский не поддерживается, но есть файнтюн (см. ниже) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🚀 КАК ЭТИМ ПОЛЬЗОВАТЬСЯ (если что-то не понятно — спроси у ИИ лол) 🚀
🔥Вариант «всё в одном месте» — ComfyUI + TTS-Audio-Suite
1. Устанавливаем ComfyUI (Desktop для нормисов, Portable для здешних нейромантов) 2. Ставим https://github.com/diodiogod/TTS-Audio-Suite — постоянная обновляемая солярка почти всех моделей 3. Поставить FFmpeg (через winget в комадной строке: winget install FFmpeg или скачать) 4. Запускаем Комфи → перетаскиваем готовый json-воркфлоу из репозитория 5. Отсавляем включенными выбранные ноды, жмём Run 6. При первой генерации модели сами скачаются (~1–9 ГБ)
💥 Вариант «по отдельности» (кастом под каждую модель) 💥 Тоже через ComfyUI, только ставим отдельные кастомные ноды (на выбор):
в комфи в ноде F5 TTS audio advanced выбрать: model model:///ru.safetensors model_type: F5TTS_v1_Base sample_audio: emma_ru_xtts_3 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🎉 Если что-то не запускается — пиши, разберёмся! Голосуем, клонируем, ебём нейросети вместе! 🔥🎙️
>>1557325 → >Faster-whisper-xxl питоновский. Обычный даже время не выдает. Ты этим же делал? не, я делал Whisper.cpp, может из за этого в 2 раза разница, хотя не верится особо...
>>1557387 >Speech-to-Text Так проблема уже давно решена, если нужно локально то QwenASR, а если не важно чтобы был лоКАЛ, то можно закинуть аудио в Грок и он сам тебе его транскрибирует. А так, ASR тоже в TTS-Audio-Suite, но обсуждать их уже как-то мало смысла.
>>1557388 ну, по первому файлику примерно в 2 раза медленнее работает, 49 сек против 21, и видеокарту не так использует... (в графе 3д ничего не показывает, только по памяти)
>>1557438 >А виспер цпп 3д нагружал в том числе >>1557836 >Почему у тебя быстрее? Оно же в проц не должно упираться? та кто его знает, по идее б у меня первого уперлось бы, у меня зион 13го года и ддр3... та и нагрузка явно на видяху там шла, бо в графе 3д конкретный такой забор был, % на 75... пробуй CPP поднять, должен быть прирост
>>1557937 > Тупо закидываешь аудиофайл в чат С чатом гопотой у меня это так м не заработало. Алсо это не автоматизируемо? А что там за модель под капотом?
>>1558097 >А что там за модель под капотом? Может быть такое что там скрытая кастомная от Гугла или все та же Veo но настроенная на звук, но везде пишут что сама Gimini она мультимодальна, то есть натренена на тексте/картинках/аудио/видео одновременно.
>>1558401 Слишком дорого, и для вменяемого качества нужно много ручного труда. В читаемой нейронкой формат перевести, голоса натренировать, хорошие варианты выбрать... Это прям сильно больше, чем несколько чуваков за пару штук нанять на озвучку.
>>1557328 (OP) >Qwen3-TTS Бляя. Я это хуйню короче вчера поставил, угадайте блять чё случилось после команды реквирементс. А то что и всегда нахуй, комфи просто перестала запускаться. с стабильность.
Не, все-таки Cuda... Хм, почему мне тогда кажется что раньше я этот забор в графе 3д видел, ну то такое, может то на другой нейронке какой-то 3д юзалось...
>>1557867 >У меня интел 10 года тогда там и AVX2 походу нет? печальненько, это может ограничить спектр запускаемого софта... та и на скорость повлиять... хотя по ощущениям основная работа на видеокарте (китайцы не смогли нормально мать развести, и при работе видеокарты в наушниках довольно хорошо слышно сигналы с PCIe шины)
>>1558729 >а без комфи А без комфи там надо ставить кучу всякой хуиты, питоны, тритоны, анаконды, и пердолиться в сонсоль до скончания веков. Я не даун, что бы заниматься этой хуетой.
>>1558749 но при этом имеешь время чтоб ломать и чинить комфи) я для себя принял тактику - новый инструмент- новый venv для пайтона... тритон на винде это боль насколько я помню вообще
>>1558781 как то так, один скрин турбо, один просто лардж оно пиками мощу повышает по меньшим значениям в 20 вт разница, 70-90... как то так, пиками на макс 150 плюет
Я тута к вам с идеей нейронкой сделать аудиокнигу. Так как у меня комп не очень, то буду сам делать на silero. Пока может для себя. В планах Сделать фонетический разбор текста, расставить правильно ударения, паузы. Разбить текст по ролям и дать каждой роли отдельный голос Так как у silero мало голосов. То отдельно придется преобразователь голоса. Добавление фоновых звуков Сшивание обратно по главам
Кто-нибудь пробовал использовать llama-tts из репозитория llama.cpp? То ли help там не полный, то ли нейронных сетей нормальных в gguf для этого нет, но у меня постоянно вылетает ошибка аля "не могу открыть gguf" или "не передан файл gguf". Советовался у Claude, Deepseek и ChatGPT - пишут, что, возможно, разрабы не допилили программу.
Анончи, помогите новичку связать llm с tts Нарезал 20 кусков по 10 секунд англоязычной речи нужного мне персонажа Пытаюсь сделать так чтобы читались ответы ллмки автоматически. Ллмка эта локальная. Дипкок предложил silly tavern, накатить через дополнения. Но я ебанулся уже разбираться в этом говне без гуя с ошибками на каждом этапе и тонной мусора из зависимостей. Может я изначально не тем путем иду и нужно как-то иначе осуществлять данную функцию? Видеокарта у меня 4060 на 8 гигабайт, 32гб ОЗУ
>>1568745 >связать llm с tts >Ллмка эта локальная. >как-то иначе осуществлять данную функцию? тебе повезло, тут в кобольд только недавно завезли поддержку QwenTTS с клонированием голосоа https://github.com/LostRuins/koboldcpp/releases
Подскажите прикольные бесплатные ИИшные говорилки для голоса с ретро вайбом для фумо видео типа как тут (японский AquesTalk, тексттуспич), но чётче и экспрессивнее, русский язык. Желательно чтобы их было не ультра сложно установить, что-то простое. Виндовс 11.
>>1569814 >ттс не понимаю как обучить обучать не нужно, сейчас все делается через voice-cloning, модель клонирует голос на лету. сначала научись его делать наверное с любой моделью и потом лезь, хотя там и так понятно все должно быть.
>>1570077 Я разобрался базово в koboldcpp и получилось настроить там рекомендованную на гитхабе TTS. Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов. Причем LLM параллельно работает наоборот очень быстро. Ещё мне не нравится, что можно только один отрывок короткий использовать, хотя у меня их 20. Каждый раз идёт обучение с нуля, как я понял по консольке и если выбирать отрывок дольше 10 секунд, то генерация звука занимает вообще по 20 минут. Неужели нет способа на 4060 более-менее быстро генерить, чтобы озвучка занимала адекватное время?
>>1570116 >Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов. Возьми квант поменьше, не Q8_0, а Q4 к примеру.
https://github.com/Saganaki22/ComfyUI-OmniVoice-TTS 600+ Languages — Broadest language coverage among zero-shot TTS models Voice Cloning — Clone any voice from 3-15 seconds of reference audio Voice Design — Create synthetic voices from text descriptions (gender, age, pitch, accent) Multi-Speaker Dialogue — Generate conversations between multiple speakers using [Speaker_N]: tags Fast Inference — RTF as low as 0.025 (40x faster than real-time) Non-Verbal Expressions — Inline tags like [laughter], [sigh], [sniff]
>>1557328 (OP) Что по качеству, голосаны? Шапка актуальна? Вот эта >>1574911 нейрошляпа актуальна? Что скачать для клона и генерации с нуля, чтобы не качать все подряд и не тыкаться с этим неделю-другую, перебирая? 16 VRAM.
Вот эта йоба >>1574904 входит в топ лучших. Но походу не лучше чем Fish-Speech S2 Pro, но более доступная, так как ФишСпич требует как раз 12 ГБ VRAM, а ОмниВойс можно и на тостере запустить с 4ГБ VRAM.
>>1575156 И для 8 ГБ VRAM, да хоть для 4 ГБ VRAM подойдет OmniVoice.
>>1575198 Да, есть дизайн голоса с нуля. Ну и плюс типа 600 ЯЗЫКОВ Карл блять, 600!
>>1575198 >>1575268 Тут прикол ОмниВойса в том, что он мультиязычный - то есть клонированные голоса с одного языка можно использовать на другой язык. То есть клонируешь чей-то известный английский голос и говоришь им на русском и т.д.
>>1575252 Спасибо. Насколько вижу по шапке, там из серьезного только Рыба, Квен, Майкрософт. Остальное мелочь какая-то. Квен и Майков трогать стоит или уже стоит только Рыбу с >>1574904 смотреть?
>>1575252 >Да, есть дизайн голоса с нуля. Дизайн с нуля и в Квене есть, говорю же. Но в Квене нет такого, чтоб взять клон голоса, и уже его дизайнить. Эмоции прописать, интонации другие, прочее. Потому и спросил. Тут, походу, тоже нет. >600 ЯЗЫКОВ На-ку-я? Не, какому-нибудь маори может и понравится, что для его языка на чем они там говорят вообще? наконец-то модель сделали. Но основные то, самые часто используемые языки, практически все модели знают.
/\/\/\ Вот эту поеботу можно как-то в google colab запустить на T4? /\/\/\
Я нищий и тупой, не бейте. Звучит охуенно, но при попытке запуска этих нод через комфи всё вылетает нахуй, я так понимаю памяти не хватает. А как использовать nf4 в душе не ебу. Ну скачал модель, закинул в папку, а дальше то что? Оно один хуй пытается свою модель автоматом качать и на этом происходит разрыв жопы. А как под это кастомный ворклфлоу собрать я в душе ебу.
А вообще имеет ли смысл? Ну типа будет ли оно хоть близко таким же качественным с моём случае, как и примеры с полноценной моделью? Или будет всё тот же робовойс?
>>1576418 Уточню что в самой ноде я также выбирал bnb nf4, но оно сначала качало оригинальную модель или её часть, пыталось что-то пережимать или хуй его и вылетало. То есть автоматический вариант видимо отпадает.
>>1576418 >>1576422 это кастомная нода к ComfyUI, поэтому должен ставиться вот так - можно ли запустить ComfyUI на коллабе? Так хз, со времен Автоматика это вроде блокируется на коллабах.
Но для тех, у кого как минимум 6 ГБ VRAM есть альтернативный вариант https://github.com/rodrigomatta/s2.cpp поддерживающий квантизированную версию модели, правда придется попариться с запуском и управлять процессом придется через командую строку. В общем самый barebones вариант, но по качеству не должен уступать.
>>1576458 Да он то сам по себе ставится на комфи в колабе, просто нужно именно обойти вот это ограничение с автоскачиванием модели, чтобы оно подтягивало не полную модель, а брало уже квантованную из файлов, а с этим непонятно. А так если вопрос стоит в том пропускает ли колаб генерацию, то да пропускает, никаких проблем с нейронками в колабе нет. Мой случай упирается именно в видеопамять.
>>1579032 Это я видел. Мне бы на русском каких-нибудь ярких экспрессивных голосов. Так омнивойс затянул, звучит как магия, после старых ттс. А вот голоса русские негде брать, особенно женские... Повырезал немного блогерш и стримерш, они в основном очень вяло разговаривают.
>>1579728 Не знаю что там про бояр. Но при черипикинге омнивойса, я смог сгенерировать короткие голосовые, неотличимые от оригинала и потролить этим друзей которые ничего не заметили. Ещё пару поколений нейронок и нам конец.
>>1579728 >Или всё то же самое по качеству будет? Ну да, если VRAM выше потолка то качество магически не увеличится, только сокорость может, ну и еще на поток поставить - генерировать сразу 2-4 вариантов аудио с разными сидами.
>>1580202 Используй Fish-Speech S2 Pro со следующими тэгами. Но по моему опыту модель понимает гораздо больше тэгов чем эти. К примеру я добовлял [surprise] и еот реально удивленно говорила, еще [embarrassed] или [love] (не уверен работает или нет, но какой-то эффект есть).
>>1579938 Почему у меня сколько бы я этих локальных нейронок не пробовал, всегда получается абсолютно обоссаная проклятая срань, в которой половину слов на китайском, половину с неправильными ударениями на русском.
Единственный приемлемый результат я получал только через RVC с обученной моделью. Которая переозвучивала то, что наговорила нейронка от гугла. Но гугл пидарасы заблочили доступ в свою студию. И теперь приходится долбиться в комфи, каждую неделю скачивая новое обоссаное проклятое поделие, и убеждаться, что оно такое же как предыдущее.
>>1590477 Есть готовая сборка портативная комфи. Просто распаковываешь её, кидаешь туда файл с гитхаба омнивойс, из папки воркфлоу. И всё. Там воркфлоу сам модели скачивает.
Так, вскатываюсь в ttv и не понимаю как установить. Скачал омнивойс, закинул в комфи и пикрил, ничего не работает. Если удалить папку nodes то комфи запускается но ругается что нод, очевидно, нет. Что делать?
>>1598336 Первое что надо сделать, это поставить в браузер закладку перплексити и подобной нейронки. И любой такой элементарный вопрос спрашивать у неё. Она такую хуету понимает, можно так и писать "где взять менеджер нод комфи уи", прямо по русски с ошибками похуй. И дальше если что-то в процессе будет непонятно, тоже у неё спрашивать.
>>1599041 Тоесть ты прямо так в сонсоль и пишешь "python -m pip install"? Это чё то не то. В портативную надо именно указывать питон, который в папке python_embeded Тоесть \путь_до_портативной папки\python_embeded\python.exe -m pip install и т.д.
>>1599066 Я батник создал в папке с питоном, как видно на пике оно сработало вроде как, написано что установлено. Если запустить еще раз батник то пишет что все работает. Но в самом комфи ничего не изменилось.
>>1599085 Сначала скачал какой-то типа официальный, потому что тот манагер не хотел качать. Он не завелся, скрутил в манагере безопасность и скачал от саганаки, ничего не изменилось.
>>1599101 Так у тебя получается ничего не установлено. Тебе нужны кастомные ноды от саганаки и воркфлоу от саганаки.
По поводу секурити вот так у меня в инишнике. И всё скачалось и сходу завелось. security_level = weak Если у тебя так же и всё равно не качает, попробуй тогда через git clone скачать репозиторий вручную.
Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ. Какой пип инсталл, куда его пихать? Что за мудак все эти инструкции писал, если бы я понимал что это значит то мне эти подсказки всратые не нужны были бы. "You can install it with `pip install accelerate", ну охуеть теперь, и что мне с этим делать? Опять создал ебучий батник и засунул туда это дерьмо - нифига. Я уже десять батников создал чтобы это говно заработало а ему надо еще и еще, это вообще кончится когда-нибудь? Что значит "используй pip install accelerate"? Гугл выдает какую-то хуйню только непонятную или еще одну папку на гитхабе которую неизвестно куда пихать.
>>1599175 Или мне надо путь батнику указывать до файла пип в папке со скриптами питона? Тогда заведется? Пиздос, чувствую я систему скоро всю наебну этими установками говна через батники.
>>1599189 Да, я так недавно комфи угандошил вайб войсом. Радуйся что хотя бы запускается пока. У меня после зависимостей вайбвойса вообще перестал.
>Надо было обновить трансформеров Так вроде скрипт установщик install.py проверяет какая там версия этих трансформеров нужна. Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?
>>1599268 Так комфи тебе может так очень долго ошибки писать. Скажем если в requirements 20 зависимостей. Оно тебе будет ошибку с одной зависимостью выдавать, а после того как ты её поставишь он тебе следующую ошибку выдаст и так 20 раз будет писать.
Потому кастомные ноды, если они не встали через менеджер, надо ставить по инструкции с гитхаба. Там будет что-то типа python -m pip install requirements.txt Но в данном случае через install.py надо в папке кастом ноды
>>1599314 Просто в батнике через пробел условно "Comfy\python_embedded\python.exe comfyUI\custom_nodes\omnivoice\python.py"? так? -pip install или просто - не надо?
>>1599644 лол, бояр закукарекал заместо авроры. Хуептало, ты вобще-то на территорию погромистов заехал. Так что заткни свой грязный рот хуем и RTFM!!! готового решения для дегенератов твоего уровня не будет ещё лет 5 пока идёт лютый прогресс и развитие. смирись и учись блядотва.
Дорова ананасы¡ Есть у меня например не у меня а у друга 2 филипиночки. 1) может ли comfyui голос на ходу менять? Чтобы звонить двм филипиночкам разным голосом? 2) если да, то можно ли находу переводить на филипиновский? Находу это с небольшими задержками, но не такими чтобы они подумали что я умственно-отсталый дегенерат. В обратку с филипиновского я через гугл транслейт могу
>>1604649 ИИшный голос легко спалят. Да и вообще, есть модели, которые этому языку обучены?
P.s. полноценного "риалтайм" ИИ-войсченжера до сих пор нет, насколько я знаю. Да, некоторые нейронки работают быстро (фразу в 15 секунд делают за 20, например). Но! Тебе надо эту фразу сначала закончить, скормить нейронке, и потом получить результат. "Потоком" делать - совсем другая технология. А уж с синхронным переводом - вообще забей.
Ну и сами модели, разумеется, нихуя не скачиваются "сами" все пришлось качать вручную. Может комфи не видит саму модель? Вставил её в папку "TTS" в комфи.
>>1576418 так это ж фиш аудио S2 у неё модель даже среднего размера всю vram займет с ней даже бояре напрягаются, а например на 5070ti bnb nf4 только нормально будет пахать, а это самая урезанная версия. Такая вот нейронка, которая по ресурсам жирнее чем видеомодели. но звук хороший генерирует, факт
2. higgs-audio-v3-tts (тоже самое что и Qwen3 только с возможностью контроля эмоции и экспрессий) - хуже чем dots.tts (но у него нету контроля эмоций, поэтому хз) в общем аудио приблуда сделанная для их собственного видео-генератора, как видно тут https://www.youtube.com/watch?v=qpXbU5011Pw (самой их видео модели у нас нет) https://github.com/Saganaki22/Higgs_v3-TTS-ComfyUI - кастомная нода для этой новинки
Вам попадался настолько хороший нейрозвук, что он щекотал ухо как хороший асмр? Необязательно из ттс, может видеонейронки такое генерили? Живые дуры с правильным микрофоном редко умеют это делать, так что это прям кто-то лору должен обучить, наверное, чтобы получилось сносно.
>>1634070 в Fish-Speech S2 Pro хорошо реализованы разные вдохы и выдохи, когда триггеришь эмоциальные теги типа [whisper] [surprise] [embarrassed] [excited] [breathy] [surprise] [groaning] [panting] [moaning] [crying loudly] - хотя половина из них не работает, но какую-то реакцию триггерит.
Челы мб ультра тупой вопрос но я не могу его решить есть ComfyUI Desktop есть кастом нода Saganaki22/ComfyUI-VoxCPM2 с ней voxcpm работает без примера, можно по описанию ТТС и все заебись все работало но сучий comfyui desktop рещил обновится без спроса и все пошло по пизде. (появились эти стендэлон сбокрки) моедль пытается перекачатся накой то хуй хотя она лежит в папке ну думаю хуйня какая-то сделал отдельную сборку, нода без проблем встает без проблем докачивает зависимости. я копирую саму модель voxCPM2 в нужную папку её можно выбрать её видно в ноде, но сука при попытке генерации комфи пытается скачать её заного куда-то в кэш, но из за ебаного чебурнета он не может её докачать соединение рвется в какой-то момент и все идет по пизде как сука это победить что бы не качал модель которая уже есть (я её уже вообще везде положил и в общую папку моделей и в сам кмофи и конкретно в ту сборку комфи которую пытаюсь использовать, изначально в общей папке леажло и все работало)
>>1634632 тупое говно тупого говна, чебурнет попустило, комфи куда-то скачал модель и все заработало, куда блять - неизвестно, в консоле нихуя не написано кроме того что скачано 9 файлов с хаггинфейса, дата изменения файлов скопированных мной не поменялась, на папках свежих дат нет, куда это говно скачалось остается загадкой...
Теперь, если у Вас не хватало VRAM, то можно запускать на проце до тех пор пока у вас как минимум 32 ГБ оперативки.
Но, чтобы совсем не уйти в тормоз не забудьте поставить в кастомной ноде max_new_tokens на 192 к примеру (в дефолте он почему-то стоит на 0 - то есть без лимита, что приводит к перегрузке).
>>1634632 >есть ComfyUI Desktop Инстаделит. Ставь портабл. Он тебе еще не раз мозги выебет и всем остальным. Помойка. Комфи и так помойка, а тут он еще и в самой системе стоит.
Весь день продолбался с ComfyUI портабл + https://github.com/Saganaki22/Moss_TTS-ComfyUI Автоматом ничего не устанавливает, зависает. Вручную с помощью Ии файлы скачивал, каждый рад чего-то не хватает. В итоге какой-то косяк с torch вроде вылез, переустановил. Тогда почему-то стала версия не для амд, а для нвидиа. Короче так и не заработало. Готовые сборки бывают без докачки?
Еще 4 часа потратил и запустил. Результат говно, но я пока не настроил. Вообще это сделано каким-то троллем или под свой пк. Если верить ии, есть несовместимые модули, то есть новая версия софта вызывает конфликт в другой части программ, а откат до старой версии не дает запустить еще что-то. Со встроенной видеокарты берет ровно 1 гб памяти, даже если в биосе 4 поставил и вылетает. Нужной настройки нет, ИИ предложил изменить название одного пункта в файле и т.д. и т.п.В итоге без видеокарты на процессоре запустилось.
Бля, вроде и можешь идеально любой голос склонировать 1 в 1 и любой объём текста идеально скормить без проблем, а оно и нахуй не нужно оказалось. Поигрался пару жней и нахуй...
Что сейчас спич ту текст самое модное и чоткое чтобы с микрофона телефона в штанах распознать разговоры? Оригинальный виспер №1 или есть другие темки схемки для русика?
Привет. Вкатился впервые в жизни в Comfy. Застрял на 4 пункте, где взять и что такое json-воркфлоу и из какого репозитория? Что такое и где взять выбранные ноды? Буду очень благодарен, если подскажешь, анон. Заранее спасибо!
>>1645518 Вообще воркфлоу в папке example_workflows по ссылке на github проекта. Но если ты новичек, то лучше пока забей на TTS Suite, шапка была давно написана и автор проекта уже перестал обновлять свои воркфлоу на гитхабе - их нужно самому строить.
Для начала лучше вестись в проекты с обновляемыми воркфлоу и без чехарды с свалкой из нод, которая сейчас обрадовалась в TTS Suite.
>>1645448 >теперь тоже самое но без бесконечной одышки, и еще локально без использования онлайн генераторов. Я взял семпл где он буквально по трассе быстрым шагом пиздует говоря именно так, в чём и весь сок. И да, это локалка - омнивоис. Делалось без деноиза и постпроцессинга аутпута для скорости, буквально всё заняло секунд 10. Насчёт шумов фоновых, как раз весь кайф в из сохранении, это плюс, ведь всегда можно просто взять чистый семпл.
Вот Эммачка Уотсон в поезде пиздит с потнером, шум поезда охуенно сохранён.
>>1645548 Привет, спасибо! С твоей помощью успешно вкатился в комфи, даже немного разобрался с её возможностями. Пара вопросов. При запуске был красивый стол с жёлтым списком-инструкцией слева, все виджеты расставлены и оставалось только накидать треки\отредактировать тексты\настройки. Вот на этом столе у меня заглючило с загруженным файлом (случайно кинул песню на 5 минут), и её никак было не удалить, только если загружать новые аудиофайлы рядом. Но после перезапуска всё равно начинал играть этот трек, причём из всех мест сразу, вручную отключал. В общем, очистил я это рабочее место, предварительно сохранив. 1. Как открыть сохранённое рабочее место? 2. Что за глюк с треком, и как полностью удалять музыкальные файлы из списка добавленных? 3. Как открыть новое рабочее место с расставленными виджетами, как было сразу после установки omni? Искал-искал, не нашел.
>>1645608 Все сохранённые файлы из комфи содержат воркфлоу твоих действий, просто перетащи файл в окно комфи. Так же ты можешь любое воркфлоу .json перетащить в окно комфи. Конкретно у омни оно тут ComfyUI\custom_nodes\ComfyUI-OmniVoice-TTS\example_workflow
>>1645576 Ну так оно и не только одинаковый шум воспроизводит постоянно, но и тембр и тон голоса, что очень сильно выдает его как ИИ-шный. Каждые 20 секунд заметно как восклицательный паттерн речи повторяется - люди так не говорят на постоянке, где надо могут потише, потом побыстрее а потом помедленнее.
В более новых моделях - Moss и Zonos2 это пофиксили, сделав речь более динамичной, при этом сохранив голос.
>>1645696 >но и тембр и тон голоса Это да, клонирует не только голос, но по сути сам момент на семпле, если он был крикливый, то так и будет, это конечно напрягает. >Moss и Zonos2 Попробую, спасибо за инфу.
>>1645648 >>1645698 Всё быстро решил. Спасибо огромное, как всё просто и интересно одновременно, погружаюсь похлеще чем в любую игру. К слову, ryzen 7 и 5070 mobile тянут без проблем и очень быстро, даже на максимальном качестве и все 4 нода сразу.
>>1645608 Анон, еще пара вопросов. 1. Как отключить автовоспроизведение аудиофайлов в нодах при запуске комфи? 2. Где найти сохранённые флоу? Я нажимаю "Сохранить как", переименовываю, и нигде не могу найти кнопку "Открыть", как и самого файла тоже нет.
>>1645980 быстрофикс Нашёл папки input\output и workflows. Осталось понять, как открывать флоу через комфи, и как отключить автовоспроизведение при открытии комфи\вкладки с флоу с аудиофайлами.
>>1645980 нажми не "сохранить как" а просто сохранить, тогда засейвится во вкладку воркфлоу слева
>>1645984 > как открывать флоу через комфи слева найти панель, там есть вкладка для воркфлоу >как отключить автовоспроизведение при открытии комфи\вкладки с флоу с аудиофайлами. просто отзумся и не наводись на ноду с аудиофайлом или хз, по этому не парился особенно