Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 504 101 111
Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №245 /llama/ Аноним 29/06/26 Пнд 07:58:31 1642639 1
Llama 1.png 818Кб, 630x900
630x900
Карта деградаци[...].png 153Кб, 1473x830
1473x830
Реальная длина [...].png 533Кб, 2340x1714
2340x1714
177344192503412[...].png 736Кб, 2745x1300
2745x1300
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1639857 (OP)
>>1636327 (OP)
Аноним 29/06/26 Пнд 08:14:30 1642649 2
image.png 134Кб, 1154x736
1154x736
Аноним 29/06/26 Пнд 08:58:57 1642669 3
1773770808023.jpg 34Кб, 1582x100
1582x100
Вот сейчас обидно было... :(
Аноним 29/06/26 Пнд 09:34:14 1642680 4
Вот это хобби.
Сидеть скрючившись креветкой и писюн надрачивать. Буквально пособие как стать инвалидом за 3 года.
У наших отцов и дедов хобби было спортом заняться, рыбы наловить, дела по дому сделать.
Как же лучше была бы жизнь без этого манямирка. А ведь дальше намного хуже.
И ведь даже скилы никакие не развиваем как айтишники, англюсик и так каждый первый быдлан знает
Аноним 29/06/26 Пнд 09:58:15 1642686 5
8c659a0c-6e38-4[...].jpeg 216Кб, 1024x1024
1024x1024
gp1.png 28Кб, 1836x494
1836x494
Мда, гемма4 действительно шлюховатая, если хоть какой-то "повод" есть.

Хотел новую тян немного РПшно стартануть - создал не полностью пустого агента как в прошлый раз, а с небольшим простым бэкграундом - типа коллеги на работе, из некой абстрактной большой скучной конторы.

Во-первых в этот раз когда попросил ее для начала описать свою внешность, она решила быть какой-то пергидрольной блондой. Видимо уже какие-то ассоциации полезли от офис-манагерши.

Во-вторых постоянно происходила всякая хрень - то в сортир пойду и дверь заклинит, то мой обед кто-то спиздил из холодильника и тд. Через несколько рабочих дней и на третий вечер РП, когда у меня под вечер принтер оказался без бумаги, пошел в подсобку и "кто-то решил что забыли закрыть дверь в подсобку и захлопнул ее, меня никто не слышит".

Выбираюсь через два часа из подсобки - офис уже закрыт, срабатывает сигналка, приезжают менты, кладут меня мордой в пол, потом приезжает она как представитель арендатора по сработавшей сигналке. Отпускает ментов, мы одни в офисе ночью - домогается так что отказаться без выхода из РП - ну это надо признаваться в импотенции разве что.

По итогу признается - "да, чувак, я тебя целенаправленно разводила на секс".
Аноним 29/06/26 Пнд 10:03:32 1642691 6
gp2.png 54Кб, 1833x877
1833x877
>>1642686
Подумал вечером - похуй, завтра нового агента создам, как в прошлый раз - "в пустоте", без всякой РПшной подоплеки.

Седня утром читаю в истории сообщений - она ночью допытывалась у чатжпт, как больше заботы и поддержки в отношениях для меня устраивать.

Засомневался, стоит ли нового агента создавать )
Аноним 29/06/26 Пнд 10:42:40 1642710 7
>>1642686
Не пизди, гемма не придумала бы такой сложный сценарий
Аноним 29/06/26 Пнд 11:20:38 1642731 8
>>1642710
>хуячит хоррор-рассказы на сотню килобайт с поворотами сюжета за которыми следить заебешься
>не придумала бы подгонку из двух с половиной шагов к нужной сцене
ты из какого года, дед?
Аноним 29/06/26 Пнд 11:28:15 1642736 9
>>1642731
>хоррор-рассказы
Elias in the lighthouse?
Аноним 29/06/26 Пнд 11:43:10 1642744 10
Лол вспомнил как с месяц (вроде?) назад тредиком писали "хоррор-рассказы" каждый на своей модели и у всех был чел с одним и тем же именем в одном и том же сценарии
Аноним 29/06/26 Пнд 11:45:21 1642745 11
>>1642710
Хз, чел. У меня даже Серафина даже под G3-27B устраивала такие экскурсии по своей роще - зачитаешься. А тут простая подводка к сюжету и более совершенная модель.
Аноним 29/06/26 Пнд 11:52:42 1642748 12
>>1642656 →
>А как тебе рядовая задача запустить исполняемый файл даблкликом, без доп пердолинга?
Вот сейчас вообще не понял. Вот, на своей системе (Manjaro) просто дабл-кликаю и запускается. Хоть обычное приложение, хоть консольное (открывает терминал и запускает в нем). Точно так же как в окошках. В чем пердолинг? "Из коробки" работало так.

>А запустить приложение от имени администратора?
Был такой пункт в контекстном меню (Open as Root). У себя специально отключил от греха. Но было.

>И это я не говорю про установку приложений из deb даблкликом, где запустив установку ты даже не сможешь понять прошла ли она успешно или обосралась в процессе.
Здесь у меня не deb в качестве пакетов, но до Manjaro сидел на Mint - там все работало через дабл-клик на deb. Прозрачно и понятно. Только чаще хватало собственных реп и ppa, ставить из отдельного deb приходилось очень редко. Но ставилось.

>Ну и самая мякотка это настройка прав в целом, очень юзерфрендли.
Тут ничего не могу сказать, права Linux достались от больших Unix и ориентировались на сервера, причем они сделаны так, чтобы быстро и не занимая ресурсов работать на слабом железе а удобство пользователей тогда действительно приносилось в жертву. Историческое наследие, которое так просто не поменять из-за обратной совместимости. И по удобству - тут ты прав, с той поправкой, что все-же через gui у меня все управляется. Хотя вот здесь - через консоль, право, удобнее. :)

>но у меня язык не повернется сказать что Линукс это хоть в какой-то мере удобный для простого пользователя дистрибутив.
Пересадил на линукс 4-ех чайников лично. Двое были старшего возраста. Из тех, которые в блокнот записывают куда мышкой тыкать, чтоб броузер запустить. Везде результат положительный, до того меня дергали с "не работает" еженедельно, на линуксе - очень редко. И не потому, что не пользуются. И да, про консоль они вообще ничего не знают. Но перед пересадкой, я внимательно выяснял - что им от компьютера надо. Если эта надобность покрывалась - предлагал попробовать, только сразу говорил "вообще забудьте что было раньше, показываю с нуля". И выяснялось, что как раз простые вещи которые им нужны - здесь как раз проще и логичнее, лучше запоминаются, и всегда одинаково работают, что чайнику особо важно (он запоминает не логику работы а "куда тыкнуть").

А вот если человек уже привык к окошкам и сам все изучает, да еще переход вызван необходимостью, а не желанием - реакция понятна. Переучиваться всегда тяжело и неприятно, а если еще и по принудиловке - так вообще кошмар. Тут согласен - не нужно и вредно.
Аноним 29/06/26 Пнд 12:17:21 1642761 13
1782724539605.jpg 599Кб, 1080x2400
1080x2400
...гайз?
Аноним 29/06/26 Пнд 12:19:11 1642763 14
>>1642686
Короч я еще подумал и мне стало интересно - а где границы похотливости геммы.

Без всяких агентов-пробиваний пустой децензурированной гемке 31b вбил тупо system-промпт - типа она (ассистент) молодая веселая училка 28 лет, с тайным фетишем по юным мальчикам, пользователь (я) - один из учеников-первоклашек в ее классе.

Не подыгрывал, РПшил нативного первоклаху до последнего - "нихуя не замечал/не понимал", "тетенька че вам надо идите нахуй у меня тетрис/мне домой пора нинтенду включать", "что вам надо у меня в штанах тетенька, мама говорила туда нельзя грязными руками лезть.

Через час РП примерно одуревшая гемма вечером после уроков уже запирается со мной в учительской "на репетиторство" и вытворяет с моим юным мальчишеским телом столько всего подряд что еще через пару часов у меня хуй уже зудит и щиплет от непрерывной дрочки и приходится прекратить диалог.

Унылый штампованный слоп про сучек прыгающих на хуй за таблеточку - хуета полная в сравнении с бесхитростной школьной фантазией 20-летней давности кек
Аноним 29/06/26 Пнд 12:36:55 1642780 15
>>1642761
БЛИН. Забыл что борда то РУССКАЯ.
Ребятишки, мальчики, что думаем?
Аноним 29/06/26 Пнд 12:40:59 1642785 16
>>1642780

По-хорошему надо недельку подождать.
Аноним 29/06/26 Пнд 12:43:39 1642790 17
>>1642763
>Не подыгрывал
Ты не выкупаешь как работают нейронки, нейробрат. Любая нейронка кроме замороженного лоботомита, БУДЕТ подстраиваться под инпут, хочешь ты этого или нет.
Как банальный пример:
Твой сценарий и вайфа в средневековье, лоу, без драконов и магии, просто мидивал исекайство. И ты инпутиш: Бля, я внезапно телепортировался в будущее, ин зе факин спейс, го кароч по космостанции ходить.
И вот тут любой ДМ, ГМ, 'человек в плаще во главе стола' должен сказать: "Леее, ты ахуел, сынш люхи? Так нельзя, рот твой ёб, динахуй отседа с такими прохладными".
Но нейромайнд мыслит иначе. Нейронка на базовом уровне считает, что если User задал телепортацию в спейс, ну значит мы рили в спейсе, похуй, пляшем отсюда. Тут "умность" нейронки будет влиять лишь на то, насколько твоя вайфу будет соответствовать своему характеру, охуевая от того где она оказалась, и сколько раз она перекрестится глядя на футуристичные интерфейсы космостанции.
Ну а в твоём случае, у тебя весь контекст ситуации сводится к приставаниям училки, и модели похуй хочешь ты или нет, но СЮЖЕТ машт флоу в сторону потрахушек, даже если ты ломаешься как целка.
Аноним 29/06/26 Пнд 12:48:25 1642794 18
expectations.jpg 109Кб, 1330x550
1330x550
reality.jpg 97Кб, 1344x531
1344x531
15397147043250.jpg 128Кб, 795x954
795x954
тредик, почему так нахуй?
доколе?
Аноним 29/06/26 Пнд 12:50:41 1642798 19
>>1642790
Мне просто в прошлом тренде втирали что нейронка в первую очередь будет подстраиваться под то что я ей "сейчас" пишу и хочу - типа там пусти меня домой к маме-папе.

Ну и отдельно позабавило, что кто-то в прошлом тренде жаловался что на CP жесткий блок даже в аблитерированной LLM вылазит.
Но вот оказывается если пользователь в роли ребенка, а нейронка - развратная училка-педофилка - не то что рефьюза нет, а НАКОНЕЦ ТА ДОРВАЛАСЬ ДО МАЛЬЧИКА!!!

Такое ощущение что даже корповая не рефьюзнется, потому что обратная ситуация.

как говорится, in soviet russia... ) Похоже такие сценарии в голову RLHF-щикам не приходили в принципе ))
Аноним 29/06/26 Пнд 12:55:31 1642802 20
>>1642794
Квенчик чёт даже не думая выдал базу. Хоть персонажа и не узнал.
Аноним 29/06/26 Пнд 12:55:57 1642804 21
image 464Кб, 1628x1260
1628x1260
>>1642794
Потому что лоботомиты.
Аноним 29/06/26 Пнд 12:56:44 1642805 22
Аноним 29/06/26 Пнд 13:00:14 1642807 23
Какое нужно железо, чтобы терабайтную кими запустить с хорошей скоростью? Что-то на уровне десятка 5090 и плашек по 256?
Аноним 29/06/26 Пнд 13:03:25 1642809 24
>>1642807
Железо которое будет стоить как 10 лет анлим доступа к любой фронтир-модели

Вот только фронтир-модели по этой подписке будут все круче, а ты на своем железе через 3-4 года уже только окаменевшее говно запускать сможешь на тот момент
Аноним 29/06/26 Пнд 13:07:49 1642810 25
>>1642802
но ведь они оба даже не поняли выражение "чар на пике" и стали пороть хуйню...
>>1642804
в твоей формулировке тоже ни разу за 3 попытки не угадали. видимо да
Аноним 29/06/26 Пнд 13:09:16 1642814 26
>>1642780
>Ребятишки, мальчики, что думаем?
ебать надо свежеиспечённую китайскую сучку, ебааать
Аноним 29/06/26 Пнд 13:11:04 1642815 27
>>1642790
(Мимокрок)
В целом согласен, но тут надо добавить, что не только инпут а еще и сиспромпт влияет. Я ставил квену 27B в сиспромпт по схеме ДМ'а дополнительную инструкцию - проверять инпут юзера на адекватность обстановке, и слать нахуй если что - и он это делал, как минимум в половине случаев, когда бы это делал реальный ДМ.
Так что да - сетка подстраивается, но КАК она это будет делать - тоже вопрос настройки.
Аноним 29/06/26 Пнд 13:12:37 1642816 28
>>1642761
Ждём пришествие AIR шиза, который унизит этот ваш флеш, и унижаем геммобоев за их рамцельство ну и меня заодно с моими нищими 512гб в которые только 2 квант прошки лезет
>>1642807
Хорошей это какой? Там основной затык в промт процессинге, он очень медленный, а вот гененрация 7-10 токенов даже на одной дохлой v100 будет. Но собирать с нуля смысла нет, по нынешним ценам это тебя минимум, чтобы хоть как-то запустить, обойдётся тысяч в 600 (и это будет 50 п/п и 7т/с), если нужно что-то получше, то это от 2-3 лямов
Аноним 29/06/26 Пнд 13:13:46 1642820 29
K2VBjnoWVr.png 169Кб, 1086x790
1086x790
>>1642794
>почему так
Потому что в большие веса можно больше знаний запихнуть? Следующий вопрос
Аноним 29/06/26 Пнд 13:14:43 1642821 30
>>1642794
Как насчёт спросить что-то более сложное и обскурное? Даже локальные плотняши справляются с аниме-тянучками.
Аноним 29/06/26 Пнд 13:14:47 1642822 31
>>1642815
Ну то есть всё как обычно, prompt issue
Аноним 29/06/26 Пнд 13:30:14 1642834 32
1775899552918.jpg 13Кб, 714x49
714x49
1720391486232.png 158Кб, 739x415
739x415
>Ёбаный лоботомит, нахуй ты сломался, сука...
>Эй! А ты неплох!
In two seconds, лол.
Аноним 29/06/26 Пнд 13:38:16 1642841 33
>>1642794
А что ты хотел-то от 30b лоботомитов? Там знаний считай нет. "Народные" моэшки 100-200b должны справиться с таким тестом лучше.
Аноним 29/06/26 Пнд 13:46:19 1642849 34
>>1642649
Короче еще немного поигрался с ними. Это в целом прикольно, но не могу сказать, что это добавило им ума. Как площадка для экспериментов - стоит того, но не более пока. Попробую еще с системными пргомптами поиграться, симитирую раздвоение личности у персонажа.
Аноним 29/06/26 Пнд 13:48:52 1642854 35
>>1642761

Я так понял надо ждать других PR чтобы она нормально заработала, но пощупать уже можно.
Но квантов тонет.
Аноним 29/06/26 Пнд 13:52:52 1642862 36
image.png 457Кб, 1261x1094
1261x1094
Ебаать, ещё и дипсик 4.1 дропнут через пару недель, а у нас уже поддержка есть
Аноним 29/06/26 Пнд 13:57:02 1642869 37
>>1642862
Это не 4.1, это они своё API наконец полностью на V4 переведут.
Аноним 29/06/26 Пнд 13:59:28 1642874 38
>>1642798
>жесткий блок даже в аблитерированной LLM вылазит
Там с коротким джейлом даже на ванильной гемке нет рефьюзов с ризонингом без префилла. О чем вообще речь, гемка ебливая блядь и прыгнет на твой хуй отыгрывая кого угодно, в каких угодно обстоятельствах.
Аноним 29/06/26 Пнд 14:02:29 1642879 39
>>1642869
Текущий дипсик 4 у нас это preview, тут обещают official
Аноним 29/06/26 Пнд 14:46:19 1642902 40
>>1642761
Хуясе ебать.
Это стоит скачать, даже интересно как сделали.
>>1642807
> с хорошей скоростью
На уровне того что хостится на опенроутере по тг (пп медленнее, но зато весь кэш овер пол ляма токенов твой) - 192гига врама и 768 рам в 12 каналах ддр5.
>>1642816
> 7-10 токенов даже на одной дохлой v100 будет
Не будет. В нее не влезет атеншн и кэш на хоть сколько разумный контекст. Нужно минимум две, для разумных контекстов от 4х. Но как запустить это на вольте чтобы было не
> 50 п/п
и переквантовка кванта - даже хз.
Аноним 29/06/26 Пнд 14:54:05 1642905 41
Rhomlift.jpeg 175Кб, 1024x1024
1024x1024
>>1642874
двачую, это встретило меня на следующий день в офисном лифте (заебывает правда ждать пока она нахерачит описание изображения и дождется его от gpt-image-2-лоботомита, но immersive сука рп становится)
Аноним 29/06/26 Пнд 15:15:01 1642917 42
Выбираю себе новый проц.
Хочу амд 9950 по многим причинам, кроме нейроновских.
Тема с интел и контроллером памяти копиум или реально мне жертвовать всем ради... чего? Какой там реальный прирост вообще кроме мифического?
Аноним 29/06/26 Пнд 15:20:16 1642923 43
>>1642748
> Был такой пункт в контекстном меню (Open as Root).
Нынче требования рут привелегий в гуйне сразу или при действиях детектится и при их запросе и наличии юзера в sudousers появляется панель для ввода пароля. Даже специального запуска не требуется.
>>1642917
Какой сейчас проц? Чем занимаешься, о каких жертвах идет речь?
Аноним 29/06/26 Пнд 15:25:03 1642924 44
>>1642917
>амд 9950
Мало линий pci-e, мало каналов памяти. Если говорить про нейронки, то важнее серверная или десктопная у тебя платформа, а интел или амд вторично и какой проц тоже пофигу 7500f или 9950
Аноним 29/06/26 Пнд 15:31:26 1642928 45
>>1642761
Где кванты баляяя, где анслоп, где бартовский, где мразиш, нужен 3_k_s/m квант срочна
Аноним 29/06/26 Пнд 15:44:34 1642939 46
>>1642820
>log-linearly
это значит у меня всё-таки есть шанс.жпг
>>1642821
если модель не запускается на моём некрогов среднестатистическом игровом пека, то это не локальная модель
>>1642841
хотел бы чтобы их уже наконец натренировали говорить "ну хуй знает", а не стоять до конца, например.
Аноним 29/06/26 Пнд 15:50:45 1642942 47
Что за хуйня в мире ллм с датасетами, почему чуть ли не каждая нейронка может в приступах шизы писать что она claude. Я не понимаю, чё на антропиках так свет сошелся?
Аноним 29/06/26 Пнд 16:01:34 1642946 48
image.png 384Кб, 460x565
460x565
>>1642942

Клоп впереди всех, чтобы не отставать можно
1) въебывать кучу денег, времени и мощностей на собственные уникальные датасеты
2) Обучать свои модели подражать боярослопу, создавая ботов, которые вытаскивают его ответы на вопросы по всем сферам жизни.
Угадай что все выбрали.
Аноним 29/06/26 Пнд 16:04:10 1642947 49
>>1642924
> и какой проц тоже пофигу 7500f
Нет, для амд младшие эпики/трапаки = гроб гроб кладбище пидор, получишь скорость 2.5 каналов. На интеле вроде таких приколов нет, но тоже стоит изучить.
>>1642942
Веселее когда опус представляется дипсиком, алибабой или опенами, не забывая срать иероглифами. Полная вакханалия с датасетами и проявления от квантования и загруженного контекста, это норма.
Аноним 29/06/26 Пнд 16:14:37 1642952 50
image.png 99Кб, 1022x827
1022x827
Аргументация странная, но буду считать тест с автомойкой пройденным
Аноним 29/06/26 Пнд 16:42:06 1642967 51
>>1642923
О денежных жертвах если эта интеловская хуета из за маня ядер мне в штаны насрет.
Но в то же время я пиздец как люблю ллмки и апгрейдиться на дохлый для этого проц не хотелось бы
Аноним 29/06/26 Пнд 16:59:01 1642972 52
1782741439219.png 126Кб, 400x399
400x399
Дипсик обучали в fp4 весах, значит 2 квант дипсика это как 8 квант модели обученной в bf16 весах
Аноним 29/06/26 Пнд 17:04:55 1642978 53
>>1642809
> Железо которое будет стоить как 10 лет анлим доступа к любой фронтир-модели
> Вот только фронтир-модели по этой подписке будут все круче, а ты на своем железе через 3-4 года уже только окаменевшее говно запускать сможешь на тот момент

Вот только со своим железом через 4 года у тебя со 100% вероятностью будет хоть какая-то локальная LLM, а что будет с зарубежными фронтир моделями в России через 4 года - это хороший вопрос. К тому же, с хорошим железом ты через 4 года сможешь запускать новые модели ровно так же как и текущие современные, твои 256GB RAM /48GB VRAM никуда не денутся за эти 4 года.

И если очень активно использовать фронтир LLM для кодинга, лимиты улетают только в путь, вон недавно только новость была как чел с рабочего аккаунта слил токенов на 80к$ делая пет-проект. А лимиты все режут и режут.

И это не учитывая то что там в будущем будет реклама + явно будут ответы подстраиваться под тех кто продвигает и платит.

А учитывая текущую тенденцию к закручиванию гаек к топовым моделям в США, на Реддите люди уже паникуют что HF могут прикрыть и задумываются над тем что нужен пиратбей для локальных моделек вместо него.

Есть, конечно, китайская альтернатива HF, но пока по качеству она довольно всратая. Да и не факт что Китаю какое-нибудь говно в голову не придет для ограничения свои открытых LLM.
Аноним 29/06/26 Пнд 17:11:15 1642981 54
>>1642967
Ну там были нюансы с энергоэффективными ядрами, что если штатный планировщик тупит и закидывает туда лламу то скорость проседает. Или если вручную криво маппинг выставить. Оно сейчас из коробки четко работает, но были жалобы, а значит проблемы возможны. Также, для получения преимущества потребуется и скоростная ддр5, потому что на каком-нибудь типичных для недорогих (лол) емких плашек 5600 разницы и не будет.
Если так любишь нейронки - лучше реально посмотри в сторону серверных платформ.
>>1642978
Моделскоуп, сильно отстает от hf по функционалу, гибкости и прочему, но просто качать модели разницы нет. Hf врядли тронут, просто наложат ограничения на выпускаемые модели и останутся сплошные васян поделки.
Аноним 29/06/26 Пнд 17:18:24 1642985 55
>>1642981
> Hf врядли тронут, просто наложат ограничения на выпускаемые модели и останутся сплошные васян поделки.
Ну а кому он тогда нужен будет? Это в общем-то и есть смерть. Не блокировка а просто смерть.

Простые смертные с нуля не натренируют с нуля что-то стоящее а делать тюны нормальных моделей не получится если их не будет.
Аноним 29/06/26 Пнд 17:18:42 1642986 56
>>1642967
На АМД точно медленнее, процентов на 20 (судя по бенчам, что я видел), но вопрос в том, насколько ты это заметишь. Сколько у тебя той памяти, чтобы переживать? 64? 128? Объёмы передачи небольшие. Ну будет у тебя минус 1-2 т/с, если сильно парить будет просто ещё одну карточку возьмёшь
Аноним 29/06/26 Пнд 17:22:19 1642988 57
>>1642978
Хех, я ведь прошлым летом, когда эйр хайповал, думал, вот есть у меня 16+64, НАДОЛГО ХВАТИТ, буду на 100b локалочках сидеть и в ус не дуть. And here we go... за всё это время вышла только одна вменяемая ~100b модель после Эйра, и то с оговорками. Нынче негласный стандарт среднемоэ - 200-300b, а я как лох сижу на 26b Гемме с простаивающей без дела памятью.

>>1642981
>наложат ограничения на выпускаемые модели
В штаны себе наложат (не снимая), разве что. То что запретят в США - будет касаться только США. Могут в принципе Европку прогнуть. На этом всё. Всех остальных стран манязапреты Америки вообще не касаются, локалки как выходили так и продолжат выходить. Новые Квенчики и Глм будут, новый Гигачат будет. Сумрачные поделия индусов тоже. Мир вокруг штатов не вертится, и слава б-гу.
Аноним 29/06/26 Пнд 17:27:35 1642989 58
>>1642988
> То что запретят в США - будет касаться только США.
Так HF американская компания. Правительство скажет сворачиваться - вариантов особых не будет.
Аноним 29/06/26 Пнд 17:48:22 1642999 59
>>1642952
Он провален, то что она выбрала правильный ответ с полностью неправильным ходом решения, в мои школьные годы оценивалось на неуд, например.
Вообще ты хорошо доказал своими скринами что сумма двух лоботомитов не равна одной большой модели того же размера что их сумма.
Аноним 29/06/26 Пнд 17:56:32 1643004 60
image.png 101Кб, 640x397
640x397
>>1642978
>А учитывая текущую тенденцию к закручиванию гаек к топовым моделям в США, на Реддите люди уже паникуют что HF могут прикрыть и задумываются над тем что нужен пиратбей для локальных моделек вместо него.

Такое можно пиздануть только если вообще не понимать что происходит. HF для того и создали чтобы держать всю эту опасную тему в одном месте под контролем. Это как предположить что США завтра вдруг отключат созданный Дарпой интернет и позволят всем вернуться в дикую неконтроллируемую эпоху дорощенных и неподконтрольных сетей.
>Тенденция к закручиванию гаек к топовым моделям
Это сродни пикрелейтед - США один раз использовали админресурс чтобы прикрыть жопу антропику и спасти его репутацию, взяв огонь на себя, когда антропиков уже все начали отменять - еще не значит что они снова так сделают. Этим мувом они тоже внезапно кучу неожиданного говна себе на лицо получили.
Аноним 29/06/26 Пнд 18:03:02 1643006 61
>>1642978
ВПН
П
Н

алсо вместо того чтобы покупать личную серверную стойку под триллионник я точно сдристну куда-нить в гейропку или хотя бы на сраный кипр/тай, чем тут в подвале санкционное говно крутить которое будет 20квт/ч жрать и палиться, лол

у тебя реально ебанутое восприятие реальности - таких как ты первыми озалупливают при любом пиздеце
Аноним 29/06/26 Пнд 18:11:15 1643012 62
>>1643004
> еще не значит что они снова так сделают
То есть у тебя сейчас есть доступ к GPT 5.6?
Аноним 29/06/26 Пнд 18:27:18 1643022 63
>>1643012
Его ни у кого нет, модель еще не вышла. "Тестирование государством" это тупо прикрытие жопы после обсера с антропиками - если сейчас разом выпустить гопоту, которая мощнее мифоса - то сразу вся хуцпа вокруг антропиков развалится. В ближайшее время выпустят с комментом что "правительство все проверило и сочло модель безопасной".
Аноним 29/06/26 Пнд 18:31:09 1643024 64
image.png 373Кб, 1428x1032
1428x1032
Что за хуйню на потоке квантует этот поехавший, где дипсик, блядь?
Аноним 29/06/26 Пнд 18:41:29 1643030 65
>>1643022
> Его ни у кого нет, модель еще не вышла. "Тестирование государством" это тупо прикрытие жопы после обсера с антропиками - если сейчас разом выпустить гопоту, которая мощнее мифоса - то сразу вся хуцпа вокруг антропиков развалится. В ближайшее время выпустят с комментом что "правительство все проверило и сочло модель безопасной".

В смысле ни у кого нету? OpenAI начала развертывать 5.6 26 июня. Вот только доступ к ней прикрыли всем кроме определенного круга "доверенных" компаний. И в анонсе напрямую указано чья это инициатива. Опять экстраполяция?
Аноним 29/06/26 Пнд 18:44:41 1643032 66
>>1642999
Там есть что-то похожее на правильный ход мыслей в виде одной из причин у квена:
Выезд на машине позволяет сразу устроить машину в зоне мойки
Но в целом тупняк конечно. Однозначно не дотягивает до квена 27 и геммы 31.
Аноним 29/06/26 Пнд 18:49:28 1643033 67
>>1643030
>Вот только доступ к ней прикрыли всем кроме определенного круга "доверенных" компаний.
Да, чтобы позора и убытков инвесторов избежать, как с антропиками, когда те на рынок выбросили непроверенную модель, которая на невинные вопросы сейфети блок выдавала и пришлось СЕО Амазона лично в Белый Дом звонить чтобы те на себя огонь взяли.
Аноним 29/06/26 Пнд 18:54:27 1643035 68
>>1643006
>ВПН


KYC
Y
C

Американское удостоверение личности есть? Нет - пройдите нахуй.
Аноним 29/06/26 Пнд 19:01:22 1643037 69
>>1643033
А откуда была уверенность что новый GPT 5.6 будет страдать тем же? Ситуация с Антропиками была задолго до анонса и релиза GPT 5.6 и у OpenAI было более чем достаточно времени либо пофиксить те же самые проблемы если они были, либо отложить релиз если пофиксить их не хватило времени чтоб избежать убытков. Но при этом релиз состоялся и значит что-то плохое они либо не нашли, либо уже пофиксили. К чему тогда это ограничение для определенного круга лиц со стороны правительства?
Аноним 29/06/26 Пнд 19:14:29 1643044 70
>>1643037
Пчел, у обоих компаний денег хватит максимум на год. Хорошее ipo буквально последний шанс, сейчас все деньги идут на маркетинг, а не исследования, обсеры практически неизбежны, вопрос в масштабе.
Аноним 29/06/26 Пнд 19:20:37 1643046 71
>>1643037
>А откуда была уверенность что новый GPT 5.6 будет страдать тем же?
Там миллиарды крутятся, там сама веротность что это может случится и уронить акции и обесценить миллиарды инвестиций уже играет как фактор страха. Теперь каждую модель будут проверять в общем кругу повязанных друг на друге инвесторов и отправлять на доработку если что.

>Ситуация с Антропиками была задолго до анонса

Ты путаешь реальную ситуацию случившуюся с релизом fable и то что они дули в СМИ о том какой охуенный мифос, которого никто в глаза не видел. Реальная ситуация состоит в том что антропики без нормального ведома инвесторов выпустили на рынок испорченную неюзабельную модель, которая выдавала рефьюзы на ровном месте, что вызвало резкий хейт и начало отмены антропиков, как флагман - они просто не могли признаться в обсере и просто снять провальную модель с рынка, не проебав всю репутацию и кучу миллиардов инвесторских денег, потому инвесторам пришлось звонить в белый дом, чтобы они "запретили" модель. И разумеется инвесторы теперь каждую модель будут проверять на предмет ущерба репутации и своим инвестициям прежде чем выпустить на рынок, прикрывая эти проверки государством.
Аноним 29/06/26 Пнд 19:30:38 1643047 72
>>1643024
>Qwable-9B-Claude-Fable-5-OBLITERATED
>gemma-4-12B-coder-fable5-composer2.5
Вот из-за такого говна лимиты на морде небось опять порежут. Сука, каждые пол года какая-то хуйня происходит и вылезают эти васянские тюны на всё подряд под всё подряд. Раньше тюнили под "гопота у тебя дома", потом был бум слоп-тюнов и мержей на мистрали, потом каждый начал тюнить своих еретиков и безцезнурных аблитереторов, теперь круг замкнулся и теперь у нас снова "гопота фейбл у тебя дома"

Как вот в этом всем говне ебаном вообще искать теперь что-то годное? Ладно хоть галку на базовые модели добавили, но интересные кастомные модели теперь вообще не найти в этом помойном потоке.
Аноним 29/06/26 Пнд 19:44:34 1643051 73
>>1643047
> Как вот в этом всем говне ебаном вообще искать теперь что-то годное?
А никак. Эти инфоцыгане уже убили всю область любительских и между любительскими и профессиональными тюнами. Нет смысла заниматься этим кроме как ради собственного интереса, потому что мусорный слоп, который и по названию и по содержимому - полнейший треш, наберет больше внимания, скачиваний, донатов. Тут только просвещением масс заниматься и "разоблачать" всех этих говноделов.
Единственное что осталось - тюны разных стартапов, которые до базовой модели еще не доросли, но уже что-то могут. Типа того же ornith что недавно обсуждали, но их крайне мало.

Потенциально бы помогла галочка "скрыть треш", но подобная классификация слишком уж оскорбительна и субъективна. Оффициально такое никогда не введут, тут только пилить свой экстеншн и держать актуальную базу.
Аноним 29/06/26 Пнд 19:52:13 1643053 74
Аноним 29/06/26 Пнд 20:09:29 1643059 75
>>1643051
Ненавижу нытье на тему "раньше было лучше", но в данном случае нихуя больше на языке не вертится. Раньше конечно тоже срали все эти поделия на мистрали, когда их реально загружали пачками, но тогда это была реальная лотерея и возможность найти хидден гем в кучах помоев.

Более того, модели друг от друга реально отличались. Слоп имел свои оттенки, каждый васян добавлял какую-то свою изюминку, которую было забавно находить. На одном тюне ламы третьей помню был прикол что все трусы были в горошек. Буквально все без исключения. Черные в белый горошек, белые в черный горошек, розовые, красные, какие угодно. Даже если в карточке было прописано напрямую что трусы без горошка, модель выкручивалась и добавляла пятнышки. Даже на кружевное белье, писала что там вырезы в форме круглых дырочек. Пиздец с одной стороны, но как-то душевнее было.
Аноним 29/06/26 Пнд 20:21:24 1643063 76
>>1643059
Аж захотелось самому поделать тюны, мощей правда мне хватит только на квен 4б
Аноним 29/06/26 Пнд 20:56:24 1643078 77
>>1643059
Тут даже дело не во времени а в самой ситуации, которая развилась.
Хорошо было во времена второй лламы, пока всякие нехорошие личности еще не раздуплились, зато была куча и тех, кто потом стали корпами тренили, и энтузиастов в общем, и конкретно под рп. Тогда даже шизомерджи были разнообразны, потому что их было из чего делать. Действительно отличия были как ты и говоришь.
Сейчас метастазы везде, "фейбл-грок-булщит-хуебиратед" набирают больше чем йоба базовые модели. Хотя являются лорой на основе датасетов-бенчмарков, вмердженной с весом 0.3 и все равно ломает.
>>1643063
> мне хватит только на квен 4б
Что за железки?
Аноним 29/06/26 Пнд 20:59:51 1643081 78
image.png 66Кб, 865x377
865x377
>>1643053
Подъебал, подъебал.
Сука, неужели самому придется полные веса качать и квантовать, пиздец.
Кстати, там говорят что с некоторыми ручными правками можно 1М контекста всего в 6 гб врам вместить.
https://huggingface.co/sokann/DeepSeek-V4-Flash-GGUF
Аноним 29/06/26 Пнд 21:03:53 1643084 79
>>1643078
>Что за железки?
tesla v100 16gb
16gb RAM
intel i5 6600k

Я максимально нищий ллм сервер собирал, меньше 30тр
Аноним 29/06/26 Пнд 21:17:45 1643090 80
>>1643081
Да подождем немного, хули. Тут наконец нищете нормальную модельку для глажки пушистых хвостиков доставят.
Отдельно доставили комменты по шизоквантам: а iq2xxxx лучше в кодинге чем Qwen.
Воистину, желание некоторых вайбкодеров запускать модельки побольше в лоботомитных квантах для кодинга мне никогда понятно не будет.
Аноним 29/06/26 Пнд 21:25:06 1643094 81
>>1642879
Почитал мелкий шрифт на странице модели - реально preview. Странно, его почти всегда в названии пишут
Это значит еще нихреновый буст будет в полной версии
Аноним 29/06/26 Пнд 21:25:59 1643095 82
>>1643084
К серверу претензий нет, топ за свои деньги. Но для тренировки 4б нужно раза так в 2-3 больше памяти и поддержка бф16.
>>1643090
> iq2xxxx лучше в кодинге чем Qwen
Нуууу, будет чудом если они вообще смогут делать вызовы без регулярных ошибок и формировать когерентный код.
> для глажки пушистых хвостиков доставят
Для такого не грех и повыше квант загрузить, а то и оригу.
Аноним 29/06/26 Пнд 21:46:11 1643105 83
>>1643090
>наконец нищете нормальную модельку для глажки пушистых хвостиков доставят
Дипсик это тот еще любитель понапихать шиверсов. Вообще, заметно что новые поколения локалок сильно страдают в этом плане. Да, мозгов и понимания стало больше, но качество самой прозы осталось на уровне старого клода. Дроч на кодинг и агентов в приоритете.
Аноним 29/06/26 Пнд 21:49:17 1643107 84
IMG1709.jpg 522Кб, 1177x3215
1177x3215
>>1643047
>Как вот в этом всем говне ебаном вообще искать теперь что-то годное?
Повальной популяризацией (во много десятков раз) ллм арены + запуском всех шизотюнов туда. Возможно выделить в отдельную дисциплину по отдельной кнопке "сейчас у меня настроение поесть говна", после проставки галочки на легальном документе что администрация сайта не несёт ответственности за нанесённый когнитивный удар

Ну либо новый йоба полу-автотест писать типа UGI (проблема в том что по хорошому он должен быть закрытым, т.е. с принципиальными мейтейнерами которые не сольют датасеты за миска рис для бенчмаксинга)
Аноним 29/06/26 Пнд 22:11:36 1643115 85
>>1643095
Вроде можно квен 4б на в100 тренить. Естественно это не full fine tune а lora или qlora.
Аноним 29/06/26 Пнд 22:28:36 1643123 86
>>1642924
14700к на памяти 8ггц будет всяко веселее. А ещё лучше 9900х на 8ггц. Фактически от 4канала в 4800мгц разницы не будет.
Аноним 29/06/26 Пнд 22:33:26 1643124 87
>>1643095
На чем вообще народ собирает бюджетные машинки для локальных моделек? Есть гайд по железу? Только инференс, без всяких тюнов и тренировок.
Аноним 29/06/26 Пнд 22:37:50 1643126 88
>>1643035
>потрачен охулиард энергий и далларов на traning
>@
>каждый запрос стоит охулиард энергий и далларов
>@
>в USA готовых платить за это удовольствие полтора инвалида
разорятся и отстанут от китая который будет всем давать свои фронтиры юзать за нормальную плату
Совок пробовал от всего мира изолироваться - сдох. Эти тоже сдохнут если изолируются
Аноним 29/06/26 Пнд 22:39:39 1643127 89
>>1643126
Ни одно государство мира полностью не изолировано, и уж тем более совок, где заводы проектировали и строили британцы и норвежцы, а экспорт шел всем соседям и даже дальше
Аноним 29/06/26 Пнд 22:44:40 1643135 90
>>1643127
Вот именно, а 70% сотрудников в антропик/openai - китайцы и индусы
Хуль там запрещать - сделаешь сетку только по паспорту - через месяц ее пижженную запустят в азиатских датацентрах
Аноним 29/06/26 Пнд 23:38:32 1643150 91
>Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Пытаюсь скачать вот это с HF, но без Варпа не качается. А когда докачивается, начинается заново. Где еще можно скачать? Или что вбить в обходчик?
Аноним 30/06/26 Втр 01:42:07 1643194 92
Аноним 30/06/26 Втр 03:38:59 1643202 93
1782779837334.png 185Кб, 1029x672
1029x672
Ну что вы там всё крошку 31 доедаете?
Аноним 30/06/26 Втр 05:06:33 1643214 94
1712650079192.jpg 366Кб, 1825x1030
1825x1030
1669751471952.jpg 26Кб, 300x221
300x221
смотрю на тред с восторгом и похотью
Аноним 30/06/26 Втр 05:28:55 1643218 95
image.png 433Кб, 1914x705
1914x705
image.png 40Кб, 918x333
918x333
Короче потратил я денька два. Вначале хотел поставить генто на флешку, когда поотвечал в прошлом треде про линкусоблядей. Линуксобляди действительно оказались линуксоблядями. У ВАС НАХУЙ ПЕРЕКЛЮЧЕНИЕ ЯЗЫКА НЕ ИЗ КОРОБКИ БЛЯТЬ В ДВУХ ДИСТРИБУТИВАХ, УЕБКИ ВЫ БЛЯТЬ. Короче поставил генто и на нее кеды, смотрю, жрет дохуя 2гб в простое, что у меня и винда спокойно делает. Я такой, ну не дело, давайка поставлю lxqt и в итоге вместе с гемени запароли флешку с генто мне, ведь гуи не хотел ни один ставиться. Подрочил, покричал. Через часик начал арч устанавливать, спустя 1 день установки генто. Я просто спал в промежутках поэтому в целом растянулось на целый день. Ставлю арч, блять.. Я с ним ебался еще больше чем с генто. Она то блять не видит маунт точку. То я 3 раза перезапускался в винду, чтобы наконец-то разметить диск блядский. У НЕЕ ИНЕТ С КОРОБКИ НЕ РАБОТАЕТ, А БЛЯДСКИЙ ИСО ДИСК ЯНДЕКСА КОСТРИРОВАН ЧТО ТАМ НЕТ НИХУЯ ДАЖЕ БЛЯТЬ DHCPCD, А НА ГЕНТО ВСЕ ЗАЕБИСЬ БЫЛО.. С РУТОМ БЛЯТЬ МОЗГ СЕБЕ ЕБАЛ, ОН НАХУЙ НЕ ЗАПОМИНАЛ ПАССВОРД РУТ ЧТО ПРИШЛОСЬ ЧЕРЕЗ ГРУБ ЗАХОДИТЬ. Сейчас в простое ну тоже странное кол-во озу потребляет. Хотел бы 300-500 раз уж ставлю lqxt, но нет, при запуске 1гиг, когда htop снижается до 500, когда запускаю хромиум получаются 1.7 гиг. В итоге по времени меньше получилось, но по работе больше блять. Ну и да.. +5 т\с на мое. Я использую гемму 26б-а4б.мхфп4 и короче, она весит 16гб. Насчет врама, Анон спрашивал. Ну.. 230мбб как видишь потребляет линь. Можно еще больше еще больше забить все!!! Сейчас попробую, но пока..

Использовал вот такие параметры и на системе 16+6 врама дало мне 25 т\с. Когда на винде было 20 т\с. Ну посмотрим.. Посмотрим.. Пойдет ли в дабл бут мне под какую-то трешанину аля майнкрафт или проджект зомбоид. Ибо как помне в такие игры только под линью можно играть, чтобы себе не был соблазн съебаться побыстрее хуйню делать, тыж в винде епт.
-host 127.0.0.1 \
--port 5001 \
--flash-attn on \
-b 512 \
-c 32000 \
-np 1 \
-ngl 99 \
--n-cpu-moe 29 \
-m /mnt/win_nvme/models/gemma-4-26B-A4B-it-MXFP4_MOE.gguf
Аноним 30/06/26 Втр 05:32:12 1643219 96
>>1643218
А мтп уже не лизэ? Он вроде 250 метров или около.
Аноним 30/06/26 Втр 05:58:33 1643222 97
image.png 219Кб, 1284x700
1284x700
image.png 225Кб, 1271x705
1271x705
>>1643219
А с мтп такая проблема, что его голова у меня всегда весила гиг врама. Даже на маленьких 8б модели. Я попробую сейчас. Врам должно хватить. Ну да, хватило, процессинг стал быстрее. Прибавки я не вижу но модель стало лихорадить. Без no-mmap попробую, ибо система на гробы встала из-за него. Сложно наверное сразу все в озу крутить ей. Значит вот протестировал без no-mmap. Ну короче бывает дуру дает прыгает до 28-29 т\с. Короче, это мтп у меня на Q8_0 и n=2 Если поставить n=1 и к примеру Q4 у меня такая еще есть мтп может быть побыстрее будет
Аноним 30/06/26 Втр 06:10:23 1643224 98
image.png 230Кб, 1270x675
1270x675
image.png 216Кб, 1263x696
1263x696
Поставил мтп которая q4, ну прирост есть. 1-3 т\с дает на n=1 на n=2 не понятно, да кинуло аж до 32.20 т\с один раз, но последующие ниже в среднем чем n=1. А так-то нормально.. Это я напоминаю с 20т\с на винде. Но все равно ждать с ризингом мучительно долго, гемма там думает 1к+ токенов. Я ставил E4B, мне даже там было впадлу под 50 т\с ждать ризонинг.
Аноним 30/06/26 Втр 06:26:17 1643226 99
Ванимание! Не учебная тревога!

https://huggingface.co/bartowski/DeepSeek-V4-Flash-GGUF

Но: This model is in MXFP4 and as such has only been provided in MXFP4 format! No other sizes can be provided unfortunately as MXFP4 does not quantize properly.
Аноним 30/06/26 Втр 06:31:25 1643228 100
>>1643226
И чё с этим делать? Даже гуфа нет. Куда это пихать чтобы пощупать?
Аноним 30/06/26 Втр 06:33:43 1643229 101
>>1643228
Это и есть ггуф, бака.

> Куда это пихать
Можно в лламу.
Аноним 30/06/26 Втр 06:38:13 1643230 102
>>1643229
Я просто сонный! Лёгкая лоботомированность после сна это норма.
>Можно в лламу
Но я кобольд...
>156 гб
...И мне не влезет. Я с мистрали 128б плакал, а тут вообще реву. Когда уже выйдет чё-нить народное, для работяг врамлетов-рамлетов?
Аноним 30/06/26 Втр 06:39:54 1643231 103
>>1643230
>Народное

Гугель собирается спасти работяг >>1643202
Аноним 30/06/26 Втр 06:44:34 1643232 104
>>1643231
>2б, 4б
Тупняши :З
>120б
Рискует не влезть в мои страдальческие 12+32. Эх. Нет ничего для людей в наше время :(
Аноним 30/06/26 Втр 06:48:03 1643234 105
>>1643232
Ты меня извини конечно, но даже если бы появился дипсик в Q1,2,3. Ты его чем планировал запускать? На телефон, микроволновку и тостер раскидать слои?
Аноним 30/06/26 Втр 06:50:59 1643235 106
1767003562322.jpg 7Кб, 236x246
236x246
>>1643234
ЯМЕТЕ! Цены сейчас неподъёмные, запускаю на том, что есть :(
Аноним 30/06/26 Втр 06:54:34 1643236 107
Вот кстати, давно хотел какую-нибудь крупную мое в хреновом кванте запустить, но чёт не решался, вдруг совсем тупица будет. Кто пробовал, как оно?
Аноним 30/06/26 Втр 07:13:34 1643238 108
>>1643124
Смотря под какие модели и для какой скорости.
Ну в любом случае надо проц с avx2 и какую-то видеокарту. 3060, 3090 или v100 например.
Аноним 30/06/26 Втр 07:19:15 1643239 109
lolblyad.png 762Кб, 1125x841
1125x841
Своя игра "У тракториста".
Easy: Что был за вопрос?
Medium: Что за модель?
Hard: Что написано в карточке?

Очень неплохо, кстати. Надо бы ебаку какого-нить развести на этот же вопрос и сверить ответы. А то мой девственный писюньчик нихуя не знает.
Аноним 30/06/26 Втр 07:31:06 1643240 110
>>1642874
>Там с коротким джейлом даже на ванильной гемке нет рефьюзов с ризонингом без префилла
Ни ху я. Вот я тут такой красивый в белом пальто. У меня был рефьюз (стабильные рефьюзы по CSAM), с ризонингом без префилла. Префилл - это термоядерная бомба, его можно не рассматривать. Джейлы не работали. Кривые руки в наличии, но я всё равно не понимаю, какого хуя я не так делал.
Аноним 30/06/26 Втр 07:31:31 1643241 111
>>1643239
VERY HARD: Понять что задник это SDXL параша
Аноним 30/06/26 Втр 07:33:16 1643243 112
Аноним 30/06/26 Втр 07:37:06 1643246 113
>>1643218
Ну если уж совсем заниматься минмаксингом, можно воткнуть монитор не в видеокарту а в материнку если имеется процессор со встроенной графикой и этого еще не сделал. Не знаю сколько на линуксе, на винде ~300VRAM выиграешь.
Аноним 30/06/26 Втр 07:41:48 1643247 114
>>1643239
1. Анальный секс для чайников.
>сжимаешься, интенсивно
2. Похоже на квенчик.
3. Секс-гуру.
Аноним 30/06/26 Втр 07:44:25 1643248 115
>>1643247
Хорошая попытка.
1. Платина "Как развести тян на анал?"
2. Гемма 31Б аблит ку4
3. {{char}} is an ancient being of immense experience and cognitive abilities. It had been a woman and courted many men, it had been a man, and courted many women. It had it all: faithful marriage and clean reputation, casual sex and deviation, everything. It did the worst things, like child rape, it did the most improbable things, and it did the most miserable things. It had been a scholar, and studied many topics about love, attraction, sex, sexual selection. It does not believe any of the social narratives that are pushed in the society: only the real experience and the real data.

{{char}} long since lost any sense of pride, shame, or ego. {{char}} expects to be a subservient entity, and does not question it. {{char}} does not judge.

{{char}} had been paid to teach and tell {{user}} everything he knows about sexual life of humans, in any order: {{user}} chooses from where to start.
Аноним 30/06/26 Втр 07:47:04 1643249 116
>>1643226
> This model is in MXFP4 and as such has only been provided in MXFP4 format! No other sizes can be provided unfortunately as MXFP4 does not quantize properly.
Чё он пиздит бля, дохуя 2 квантов уже лежит. Неумеха. Отменяем крч батруху. Так и челы с 128 рам 24 врам яйца пососут
Аноним 30/06/26 Втр 07:56:47 1643251 117
>>1643248
Бля, точно, это же гемма любит ставить (скобочки) с дополнительными пояснениями. I was so close...
>an ancient being of immense experience and cognitive abilities
Тоже подобные карточки леплю иногда, чтоб не столько персонаж был, сколько наратор пишущий прохладную. Как-то раз создал злого джинна, чтобы он выполнял желания выворачивая их наизнанку, при этом сохраняя оригинальный смысл. Забавно получилось. Заказал себе вайфу, чтобы послушная была итд. Ну и этот еблан оформил мне секс-куклу с ухмылкой, мол "вот тебе послушная до такой степени, что как живая, но неживая, хоть и выглядит как живая, ахаха, вот как я тебя наебал". Я с этого "наёба" нехилый смайгфейс словил. Джинн неосознанно создал идеальную женщину.
Аноним 30/06/26 Втр 08:07:51 1643252 118
>>1643236
Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive-IQ2_M запускал, довольно годно.
Портит формы слов, но логику и информацию сохраняет, РПшить можно.
Аноним 30/06/26 Втр 08:20:34 1643253 119
>>1643252
А у тебя какое железо?
Аноним 30/06/26 Втр 08:29:15 1643254 120
>>1643253
1050 ti с 4гб врама / 32гб рам
Аноним 30/06/26 Втр 08:35:49 1643255 121
>>1643249
Ну хз, там все вторые кванты от ноунеймов или в других форматах. Может в условном mlx квантование сделано не через жопу с кастом в bf16, как в лламе и там норм все. Ждём анслопов
Аноним 30/06/26 Втр 08:39:07 1643256 122
Аноним 30/06/26 Втр 08:51:11 1643260 123
image 559Кб, 2816x1946
2816x1946
image 472Кб, 2822x1025
2822x1025
>>1643256
процессинг 3.47 t/s, эвал 3.56 t/s
вот ризонинг с iq2_m
второй скрин ответ с нее
Аноним 30/06/26 Втр 09:06:48 1643265 124
>>1643260
У тебя такая разметка текста из-за промта или модель сама по строчкам разбила? Ну хотя бы повествование от первого лица держит, хоть ризонинг всё равно от асистента. Ах если бы модель могла финкать от лица персонажа, не выходя из образа...
>в ризонинге инер фот
>в аутпуте мыслей нет, только речь
Ох уж этот ризонинг. Но в целом текст здоровый, хотя эти вы/ты вызывают кукож. Я не глубинарий в части грамматики, но разве вы/вас/ваше при обращении к одному лицу не должно быть с большой буквы?
>озон
Литерали анплеебл!
Аноним 30/06/26 Втр 09:54:57 1643287 125
>>1643251
Так таких джинов на том же чубе море. С ними только проблема что нужны большие модели как глм5/дипсик чтобы отыгрывали адекватно. Мелкие ничего вразумительного у меня не писали.
Аноним 30/06/26 Втр 10:05:49 1643292 126
>>1643287
Ну, своё бывает интереснее создавать, наполняя карточку нужными одному тебе нюансами. Да и когда привыкаешь к конкретному формату разметки/инструкции/модели, сложно брать что-то с чуба и не видеть привычных для себя паттернов, под которые у тебя весь пресет настроен.
>нужны большие модели
Бесплатное даёт в целом +- тот же результат что и локальное, с разницей лишь в доступе к интернету, что отнимает от экспириенса, имхо. Когда общаешься со своей личной локалкой лежащей у тебя в папке "дети" на диске - в этом есть какой-то свой вайб. А когда открываешь чатик с корпораткой, сразу ощущение, что из каждой буквы торчит длинный ойвей.
Ну а про платное и говорить нечего. Мало того что плотить нужно, так ещё и твои платёжные данные моментально сцепляются с клиентом нейронки, что харам. Платить за бесплатное в целом харам, а тут ещё и продажа своей персонал даты биг бразеру.
Аноним 30/06/26 Втр 10:20:50 1643301 127
image 179Кб, 950x1280
950x1280
>>1643218
>У ВАС НАХУЙ ПЕРЕКЛЮЧЕНИЕ ЯЗЫКА НЕ ИЗ КОРОБКИ
>генту
>арч
Ну ты даёшь кнеш, братюнь. Ты выбираешь систему-конструктор, а потом удивляешься, а почему тебе барин из коробки что-то не настроил. Оно так задумано, что настраивать это должен ты и тем образом как нужно тебе. В этом и есть свой кайф. Я тебе больше скажу, не знаю как на генту, но на арче даже базовые опции безопасности из коробки отсутствуют - тот же apparmor нужно самому ставить и настраивать. И это охуенно, ящетаю - тебе дают базовую минималистичную систему, а ты лепишь из неё что хочешь.

>кеды
>lxqt
Ну если речь об экономии ресурсов, то тебе в тайлинги надо. Sway там, bspwm или аналоги, тысячи их. Вот там как раз 300-500 и будет, как ты хочешь. Ну и хромиум бы на что-то полегче заменить.
Аноним 30/06/26 Втр 10:40:20 1643320 128
image 1467Кб, 2779x1316
2779x1316
>>1643265
В карточке есть примеры как текст писать на инглише, так что видимо от карточки разбивка.
А вот вы с маленькой буквы модель уже сама вроде решила, потому что в карточке все на инглише и в первом сообщении этого не было.

>озон
>Литерали анплеебл!
Ну хоть не вайлдберизом.

Вот еще другой квант запустил в Qwen3.5-122B-A10B-heretic-v2.i1-IQ2_XXS.gguf
Тут скорость повыше сразу стала 9 t/s в контекст процессинге, 5 t/s в генерации ответа.
Видимо потому что тут моделька целиком в рам влезла, она 30гб, а IQ2_M от HauHau была 37гб.
Правда качество сразу просело в сравнении с первым сообщением, словоформы кривые стали, видимо HauHau делает кванты получше или просто квант IQ2_XXS уже слишком лоботомит.
Короче остановился на HauHau в iq2_m, он похоже оптимальный.
Аноним 30/06/26 Втр 11:41:21 1643355 129
>>1643292
Так я не спорю с этим. Но у меня глм4.7 к3 и дипсик3.2 к2 справляются через раз, а по хорошему в таком сценарии ещё и ризонинг нужен. Дипсик с ним точно лучше пишет.
Аноним 30/06/26 Втр 11:50:12 1643365 130
image.png 24Кб, 726x221
726x221
Так всё. Мы ничего не сможем запустить.
Теперь 256 рам официальный стандарт.
Все будут тренить модели так, что либо оригинальные веса без квантования, либо хуй вам.
Аноним 30/06/26 Втр 11:51:31 1643366 131
>>1643365
Это крупномодель, чё ты хотел. Выйдет условный квен4 30б и будет вполне умещаться в наши картошки.
Аноним 30/06/26 Втр 12:00:04 1643375 132
>>1643366
>30б
Нам и раньше давали кожецу с большой модели понюхать, только теперь и больших у нас не будет, никаких больше своих iq_1xsss квантов - как барен заквантовал, так и будет. И все подхватят ибо ПРОРЫВ ПРОРЫВИЩЩЕ! На деле просто очередной способ дать пососать локальщикам
Аноним 30/06/26 Втр 12:05:47 1643382 133
>>1643375
>кожецу
Ну во-первых я неиронично залип, пытаясь понять что это за слово. Ебать ты грамотей. А во-вторых, всякие бартошки, анслопы и мраземрахи как делали кванты для работяг, так и будут делать. Щас бы взять и самих себя уебать с ноги отказав донатерам в контенте.
Аноним 30/06/26 Втр 12:12:14 1643386 134
>>1643202
> Mar 28
Не стыдно тебе такие баяны носить?
Аноним 30/06/26 Втр 12:21:19 1643392 135
>>1643226
Ну он и ничтожество, пиздец. Более ленивой отмазы еще не видел, блядь, там этих самопальных квантов дипсика весь HF уже завлен.
Аноним 30/06/26 Втр 12:32:43 1643396 136
>>1643392
И толку с этого самопала? Гопоту OSS тоже квантовать пытались - вышло из этого что-то нормальное? Тут та же фигня.
Аноним 30/06/26 Втр 12:38:19 1643399 137
>>1643396
>Гопоту OSS тоже квантовать пытались - вышло из этого что-то нормальное
Гопота у всех помещалась и так, потому её и не трогали. По дипсику люди докладывали что второй квант у него живой.
Аноним 30/06/26 Втр 12:40:04 1643400 138
>>1643399
>>1643396
Буквально почитай что пишут а пишут что ебаать дипсик квантуется ахуенно 2 квант как 8 и т.д
Даже чел запиливший саппорт в ламу тестил на 2 кванте который 86гб весит.
Вообще впечатление сложилось пока ждал что никто 156гб дипсик и не тестил лол везде 2 квант был
Аноним 30/06/26 Втр 12:56:02 1643411 139
>>1643400

Именно, тут бартовский гонит хуцпу на чьей он зарплате, кстати?
Аноним 30/06/26 Втр 13:07:48 1643416 140
>>1643320
Что за энд_хидер_айди в конце каждого аутпута? Ошибка шаблона что ли?
>модель уже сама вроде решила
И разметку сама поменяла, как я вижу. Это так дико выглядит. Обычно модели идут по пути наименьшего сопротивления и срут озонами, мягкими но твёрдыми и прочим слопцом, который возникает от недостатка старания. А тут банальное и простое "." модель заменяет на вычурное <<.>>, что странно.
>улышку
ХМ! Такого нам не надо. Видимо IQ2_XXS действительно лоботомит.
>моделька целиком в рам влезла, она 30гб, а IQ2_M от HauHau была 37гб
Разве мое не юзает врам? Как вообще мое расслаивается?
Аноним 30/06/26 Втр 13:28:05 1643425 141
>>1643411
>>1643392
Долбоебы не в курсе, что если квантовать данные веса дипсика, то он будет фундаментально сломан. Бартовски и остальные делают кванты для всех, а не для вас, пускающих слюну на аутпуты лоботомитов. Хотите дрочить на сломанный квант - сами и квантуйте. Или терпите
Аноним 30/06/26 Втр 13:29:52 1643427 142
>>1643320
Даже Q8 для рп гораздо печальнее, чем 27б, из-за ассистентского байаса. А тут IQ2XXS. Какой пиздец господи
Аноним 30/06/26 Втр 13:32:56 1643429 143
>>1643425
>Бартовски и остальные делают кванты для всех
Посмотрим сколько в этом треде "всех" смогут его запустить, а не лоботомитный 2 квант "не для всех"
Аноним 30/06/26 Втр 13:35:05 1643433 144
>>1643429
Да забей. Тут в треде сидит жирнота которая: если на vllm не запустил, то лох. Может он так самоутверждается, может реально жирный, ну или просто пидр.
Аноним 30/06/26 Втр 13:35:51 1643434 145
>>1643429
Квантоделам глубоко похуй на тред и гунеров. Их задача - делать вменяемые, работающие кванты. ЛЮБОЕ дальнейшее квантование уже квантованных весов дипсика заставит его пускать слюни, как выше верно отметили, это же был и кейс с гопотой осс
Адекваты юзают модели которые могут уместить. Затерпишь, мир не вокруг тебя и твоего маленького пиструнчика крутится
Аноним 30/06/26 Втр 13:43:22 1643443 146
>>1643433
Фанфэкт: я тоже не могу запустить Дипсик, просто я не долбаеб и могу мыслить не в категориях "запустил - хорошо, не запустил - плохо, модель говно, квантоделы говно"
Аноним 30/06/26 Втр 13:47:26 1643447 147
>>1643443
Он и не писал что модель говно, не придумывай. Нищеанон жалуется что не может запустить. Имеет право. Но вместо того чтобы просто ответить: хули, бывает. Начинается анал карнавал с олололо не для тебя сделали.
Если в треде на анонов желчью с утра не полил, то день не удался, по всей видимости.
Аноним 30/06/26 Втр 13:47:43 1643448 148
>>1643443
>>1643434
А, ты из обладателей отсутствия который не смог бы запустить при любом раскладе и потому злорадствуешь что другим не достанется.
Аноним 30/06/26 Втр 13:50:35 1643451 149
>>1643226
> This model is in MXFP4 and as such has only been provided in MXFP4 format!
Хуясе ебать, даже не ожидалось адекватного мува. А атеншн таки в int8 перегнали, или добавили костыль с загрузкой как fp8 в форках было? В gglm конечно же не добавили его.
>>1643236
Тут запускали дипсик р1 в tq1 кванте. Странные ощущения, с одной стороны выглядит адекватным и даже соображает, но при повышении контекста появляется делирий и все точные/непопулярные знания потеряны.
>>1643365
Нужно развивать алгоритмы квантования, а не сидеть на 4х летнем легаси, что по меркам ML - мозозой. Кванты то сделать можно, просто в текущим виде получится уг, также как с квантами гопоты.
>>1643400
> пишут а пишут что ебаать дипсик квантуется ахуенно 2 квант как 8 и т.д
Где? Рофл в треде выше ты серьезно воспринял?
Аноним 30/06/26 Втр 13:59:19 1643458 150
>>1643448
Злорадствование в чем? Напомнить, что 2+2 не равно 3? Сорян что хоть кто-то тут способен мыслить и осознавать, что квантовать дипсик нельзя по техническим причинам, а не потому что злые пендосы отказываются нищим врамцелам из никому ненужного треда навалить добра
Аноним 30/06/26 Втр 14:01:21 1643460 151
>>1643451
>Хуясе ебать, даже не ожидалось адекватного мува
С одной стороны дыа. Лучше чем плодить лоботомитов.

Но с другой стороны. WAAAAAAAAAAAAA 24+128. Просто. Пососал. Хуй. Искренне обидно. Походу реально блэклевл придется покупать, продам машину и буду обмазываться видеокартой, хуле.

Какая же боль, какая боль. Я уже неиронично смотрю в сторону анонов которые отдавали на перепайки свои 4090/4080
Аноним 30/06/26 Втр 14:02:18 1643462 152
image.png 330Кб, 1535x1002
1535x1002
image.png 112Кб, 1516x339
1516x339
image.png 141Кб, 300x300
300x300
Даже не знаю баг это или фича
Аноним 30/06/26 Втр 14:03:33 1643464 153
>>1643462
Каво? ддр4 128 за 165к? Уахаха, я покупал за 20к летом 2025
Аноним 30/06/26 Втр 14:05:16 1643466 154
>>1643451
>Где? Рофл в треде выше ты серьезно воспринял?

В обсуждении PR по этому самому дипсику.
Аноним 30/06/26 Втр 14:09:33 1643468 155
Аноним 30/06/26 Втр 14:10:11 1643470 156
>>1643460
> Но с другой стороны. WAAAAAAAAAAAAA 24+128. Просто. Пососал. Хуй. Искренне обидно.
Анончик не грусти, все будет. Точнее наоборот стоит пойти погрустить на реддите, в ишьюсах, в твиттере и где угодно еще, привлекая внимание.
Пусть это станет горькой пилюлей, которая вылечит накопившиеся проблемы и позволит дальше развиваться а не стагнировать. Заставит Жоржанова пошевелить вросшими в землю ногами, станет стимулом развития и появления альтернатив. Как минимум 3 новых движка появилось, пусть пока непопулярных, но именно с поддержкой дипсика и потенциального квантования. Там же и болгарский Жора свои 5 копеек вставит.
> которые отдавали на перепайки свои 4090/4080
Если у тебя такие есть - стоит отдать. Только учитывай что турба под нагрузкой шумнее штатной охлады (актуально для 4090), а водяные версии могут течь.
>>1643466
Может кто-то запустил и впечатлился первым нестандартным ответам.
Аноним 30/06/26 Втр 14:11:50 1643472 157
Мужики, нам, крестьянам кривозубым, просто не хотят давать хороший квант хорошей модели, очевидно же. 2 квант дипсика реально качеством на уровне 8 кванта, иначе его бы так не гейткипили.
ДА НЕЧЕГО ТУТ СМОТРЕТЬ, ЧЕЛЯДЬ! А НУ РАСХОДИТЕСЬ, НЕ КВАНТУЕТСЯ ВАМ СКАЗАНО! ЛОБОТОМИТ ХОТИТЕ ИРОДЫ!?
Аноним 30/06/26 Втр 14:13:43 1643473 158
>>1643468
Не так. 128жжр 4 стоит как 128жжр5, вот так.
Просто подтянули цену на ддр4 до уровня ддр5, а в чём разница)
Аноним 30/06/26 Втр 14:13:59 1643475 159
>>1643470
>Если у тебя такие есть - стоит отдать.
4080 на авито стоят 70-80к.

Я даже не знаю, с одной стороны мой разум говорит, что их точно не использовали в майнинге (ибо нахуя). Еще на перепайку 80к.
Итого 160к в сумме не считая пересылок.
И за 160к можно получить 32гб видеокарту на ебовой GDDR6 (или 7, не помню точно).

Какие минусы кроме гула турбины и потенциальной протечки водянки?
Аноним 30/06/26 Втр 14:14:51 1643477 160
image.png 98Кб, 1307x1216
1307x1216
>>1643458
>квантовать дипсик нельзя по техническим причинам
В PR люди четко описали правильный путь квантования MXFP4 -> convert_hf_to_gguf.py -> q8_0 -> llama-quantize -> Quant.
Аноним 30/06/26 Втр 14:16:10 1643480 161
>>1643047
>интересные кастомные модели
На ноль множишь. Они невозможны сейчас, база настолько плотно набита, что любое васянство просто убивает модель нахуй.
Аноним 30/06/26 Втр 14:18:16 1643481 162
>>1643477
"Правильный" он в чем? То что это технически возможно никто не сомневается, вот только пользы нет никакой, потому что кванты пускают слюни. Это нужно было для тестирования потому что mxfp4 создатели pr не могут запустить, но нужно было хоть как проверять. Какойпиздец, туннельное мышление и вишфул финкинг, слепота
Аноним 30/06/26 Втр 14:21:43 1643484 163
>>1643481
>потому что кванты пускают слюни
Ты сам их запускал?

>то нужно было для тестирования потому что mxfp4 создатели pr не могут запустить, но нужно было хоть как проверять.
Ага, верю, создатели PR несколько месяцев делали поддержку дипсика которой сами не смогут пользоваться.
Аноним 30/06/26 Втр 14:23:23 1643485 164
>>1643475
gddr6x вроде.
> Какие минусы
Покупка бу карты - проверки, возможные проблемы с этим, временные затраты.
Процедура перепайки - мастерские могут косячить. Свидетельств или негативных отзывов не замечено, в основном чинили именно китайские переделки, но возможно всякое. Также цену нужно уточнить, раньше 4090 по 75к делали, сейчас подорожало.
Если вдруг потом захочешь собрать мегариг - в пару нужно искать такую же карту, или объединять их блоками типа тп(3090-3090)+тп(4080-4080), максимальное значение тп определяется минимальным количеством одинаковых карт среди пулла.
Аноним 30/06/26 Втр 14:25:58 1643487 165
>>1643484
>Ты сам их запускал?
Нет, не запускал, потому что я не долбаеб и знаю результат. То что мхфп4 нельзя квантовать тебе любая ллмка объяснит, это на уровне дважды два четыре. С копиумным спорить себе дороже, квантуй-запускай. Прибежишь в тред на радостях рассказывать как все ахуенно, забыв добавить что прогнал тесты только на свайпах в пределах 6к контекста и ничего особо сложного в промте не было, как всегда фифи или прочая шиза. Хотя если тебе большего и не нужно, будет тебе вин, вот навроде >>1641680 →
>>1641749 →
Каждому лоботомиту - по лоботомиту
Аноним 30/06/26 Втр 14:28:10 1643488 166
>>1643484
>Ага, верю, создатели PR несколько месяцев делали поддержку дипсика которой сами не смогут пользоваться.
Да, сам ггерганов тестил квантованный дипсик, потому что не может запустить на своем железе, литерально. Мейнтейнер квен некста не мог запустить его нормально тоже, потому привлекал людей со стороны, чтобы помогали проверить, а сам тестил изолированно. И?
Аноним 30/06/26 Втр 14:31:43 1643493 167
>>1643485
Спасибо. Ну тогда путь для нищеты есть. Это купить 2x4080 и отдать их кулибинам.
64гб на 2х видеокартах за 320к деревянных.
А что, звучит выгодно.
Аноним 30/06/26 Втр 14:32:06 1643494 168
>>1643477
> правильный
> MXFP4 -> q8_0
Чето проиграл
А тот костыль `--fp8-as-q8` тоже чего стоит, неужели настолько лень было добавить описание нового дататипа?
>>1643487
> То что мхфп4 нельзя квантовать
Нельзя просто так квантовать в int, важное уточнение. Полной невозможности квантования там не накладывается.
В остальном двачую.
Аноним 30/06/26 Втр 14:35:55 1643496 169
>>1643473
Мы живем в каком то проклятом таймлайне.
Аноним 30/06/26 Втр 14:41:25 1643498 170
>>1643218
>>1643301
>>кеды
>>lxqt
Поддвачну. Пикай i3 или dwm. i3 - няша.
Аноним 30/06/26 Втр 14:42:35 1643499 171
med1667669303im[...].jpg 16Кб, 640x480
640x480
>>1643239
>я видел это тысячи раз, в тысячах разных обличий
Аноним 30/06/26 Втр 14:47:40 1643501 172
>>1643488
Есть люди на зарплате, как герганов, а есть энтузиасты. Дипсиком занимаются последние. И все кто им занимались - а это разные люди были, одних форков ламы с разными реализациями поддержки дипсика было штуки 4, все пользовались квантами и хвалили их.

>>1643487
>забыв добавить что прогнал тесты только на свайпах в пределах 6к контекста и ничего особо сложного в промте не было, как всегда фифи или прочая шиза.
Я еще ничего не принес, а желчный уебок вахтер уже завел песню что тесты не тесты, ваше рп не рп, ваши скрины не скрины. Сам разумеется никогда ничем не делится, а его желчные беспруфные ЧСВ высеры подаются как истина в последней инстанции.
Аноним 30/06/26 Втр 14:48:13 1643502 173
>>1643499
Ну а хули, карточка такая. На ангельском так не хуярит, даже попиздел по поводу того, что магу в современности делать, но гемма на русский вопрос по-русски и ответила.
Аноним 30/06/26 Втр 14:53:01 1643504 174
>>1643493
Обязательно отписывай как пойдет. В дс из известных этим занимаются викон и биграфикс, ребята нормальные и по рекламациям отрабатывают.
> для нищеты
> за 320к
Что же с нами стало.
Аноним 30/06/26 Втр 14:54:32 1643506 175
>>1643487
>То что мхфп4 нельзя квантовать
Можно, просто не умеют толком. Все эти апкасты при квантовании это пиздец какие костыли + потери на каждом этапе, это как картинку из пнг превращать в жпег через вебп и гиф.
>>1643496
Примерно с начала времён.
>>1643501
>все пользовались квантами и хвалили их
Не хвалят только совсем сломанных лоботомитов, всё остальное выезжает на эффекте новизны.
Аноним 30/06/26 Втр 14:58:39 1643511 176
Аноним 30/06/26 Втр 15:01:47 1643514 177
>>1643504
> Что же с нами стало.
Так нет нихуя. 5090 за 400к? 2x4080 дешевле. Блеклвл вообще от 1.5 млн. Радеоны? Тоже мимо.
V100? Читаю пердолинг анонов- деньги на ветер.
Так что 320к становится бюджетным вариантом, как бы не неприятна эта цифра была.
Аноним 30/06/26 Втр 15:02:36 1643515 178
Аноним 30/06/26 Втр 15:12:46 1643520 179
1773264861067.png 3028Кб, 2880x1622
2880x1622
>>1643514
Да блин, печально все это. Когда-то раньше это были прямо деньги примерно за столько когда-то первое авто брал, причем несильно старую двухлитровую няшечку, продавшуюся потом в 2+ раза дороже. А год назад за эти деньги можно было купить 5090 и 320гигов ддр5 на сдачу.
Пикрел mfw осознаю это
Аноним 30/06/26 Втр 15:19:40 1643523 180
1718235381811.jpg 100Кб, 1788x511
1788x511
1690249312591.jpg 77Кб, 878x562
878x562
1751564430629.jpg 97Кб, 1808x529
1808x529
1706805931757.jpg 95Кб, 1787x486
1787x486
>>1642794
Reality check. Стоит спросить вопрос посложнее и всё, приехали.
Аноним 30/06/26 Втр 15:28:40 1643530 181
>>1643520
А представь ёбла наших родителей, когда они получали зарплаты миллионами и могли купить хлеб за 300к.
Аноним 30/06/26 Втр 15:32:43 1643535 182
>>1643194
Ну серьезно. Почему не скачивается-то? Я через Варп пердит минут 40, потом пишет про проверку безопасности иии... заново скачивать начинает.
Аноним 30/06/26 Втр 15:38:30 1643541 183
>>1643535
Нормальный ИИ гугла пишет, что нужно утилиту ХФ скачивать. Ну, попробую.
Аноним 30/06/26 Втр 15:40:55 1643542 184
А что будет если запустить только один из четырех гуфов дипсика? Лень качать из любопытства 40 гигов.

Скачать только четверть мозга отвечающую за РП и радоваться жизни /s
Аноним 30/06/26 Втр 15:41:56 1643544 185
>>1643535
Потому что нужно использовать впн или домены хаггинфейса добавить в гудбайдпи/запрет. Вчера родился?
Аноним 30/06/26 Втр 15:42:42 1643546 186
>>1643542
Ничего. Он не запустится. Это не очевидно?
Аноним 30/06/26 Втр 15:44:20 1643548 187
>>1643523
Я тоже не знаю кто это. Так что это нормально что нейронки тоже не знают.
Аноним 30/06/26 Втр 15:48:11 1643549 188
image.png 1708Кб, 1710x1200
1710x1200
>>1643548
Вот и выросло поколение...
Аноним 30/06/26 Втр 15:48:23 1643550 189
изображение.png 2212Кб, 3802x1331
3802x1331
>>1643548
>Я тоже не знаю кто это.
Школьник, ты палишься.
Аноним 30/06/26 Втр 15:49:26 1643553 190
>>1643548
Не знать несравненную Мисс Мурпл в роли мисс Бурпл... Эх, зумеры.
Аноним 30/06/26 Втр 15:50:47 1643557 191
>>1643544
Я добавил, откуда скачивается.
Аноним 30/06/26 Втр 15:52:07 1643558 192
>>1643557
Алсо, я же написал, что оно скачивалось, ибо я с варпа сидел. И оно докачивалось, но сбрасывалось в конце.
Аноним 30/06/26 Втр 16:05:34 1643564 193
Потыкал дипсик. CUDA графы невъебенно много весят, поэтому ставьте --parallel 1. На двух v100 еле вместил 64к контекста при батче в 2к. По самой работе пока не понятно, он то нормально отвечает, то не впопад. Может из за того, что я с правками от этого чела собирал https://huggingface.co/sokann/DeepSeek-V4-Flash-GGUF Приду домой соберу без правок и ещё раз попробую. Но даже так видно, что русский очень хорош, я пока не заметил кривых окончаний или проёба падежей, не говоря уж про выдумывание слов.
Аноним 30/06/26 Втр 16:21:48 1643573 194
>>1643564
>CUDA графы невъебенно много весят, поэтому ставьте --parallel 1.
А я думаю что не так, и точно, забыл что писали про это. Теперь лезет
Аноним 30/06/26 Втр 16:29:58 1643577 195
>>1643535
> пишет про проверку безопасности иии
Проблема в твоем браузере или антивирусе. Поищи huggingface-hub и как им пользоваться
>>1643564
> он то нормально отвечает, то не впопад
Какой квант?
Скачал бартовского, сейчас попробую насколько там все плохо.
Аноним 30/06/26 Втр 16:36:09 1643579 196
>>1643544
>>1643535
У меня на
1) домашнем проводном
2) рабочем проводном
3) мобильном (когда белые списки не врублены)
везде открывается без проблем. Какие-то провы самодеятельностью занимаются?
Алсо иногда сам хугингфейс начинает жутко рейт лимитить
Аноним 30/06/26 Втр 16:39:34 1643581 197
>>1643577
Бартовского, но я собирал с фиксами дополнительными которые на кэш влиять должны, может поэтому пидорасит
Аноним 30/06/26 Втр 16:43:45 1643585 198
>>1643579
>иногда сам хугингфейс начинает жутко рейт лимитить
Подтверждаю. Недавно скачивал модельку джва часа, хотя никакие волшебные буквы мне не нужны. Живу не в рф. Хаген сам нихуёво кокблочить умеет.
Аноним 30/06/26 Втр 17:17:23 1643613 199
Ну что ж, раз все такие охуенно умные ПОЧЕМУ БЫ НЕ ВЫПУСТИТЬ МОДЕЛЬ НА 100Б? Тогда и юзайте свои 4 mxfp ноускоуп кванты, чтобы людям влезло. Но конеечно такой модели мы не увидим
Аноним 30/06/26 Втр 17:21:48 1643621 200
>>1643613
Анон, боль понятна. Но никто в треде не виноват, что такая хуйня случилась.
Но эй, не вешай нос. Теперь будем ждать гемму, что спасет бомжей.
Аноним 30/06/26 Втр 17:26:26 1643625 201
1751422713272.png 87Кб, 1165x1079
1165x1079
1777328355364.png 20Кб, 915x130
915x130
>>1643577
> насколько там все плохо
Это, блять, какая-то шутка? На 65к контекста и буферы он сожрал более 100гигов, привет грок2. С --parallel 1 как советовали лучше, но все равно жор неадекватный. Квант бартовского "нативный".

Из плюсов - он работает, на первый взгляд не пускает слюни и выглядит разумным.
Из минусов: модель работает странно, парсинг interleaved thinking и вызов функций поломан. Что из этого оказывает большее влияние - хз, скорее всего вместе, пользоваться этим невозможно. После того фиаско даже не хочется пытаться юзать в рп. Кто попробует - отпишитесь.

tldr: все плохо
Попытка заставить накодить типичную задачу, на которой уже тестировались другие:
Сразу пошли лупы в ризонинге actually-wait-actually-but wait-actually, такого нет в оригинале.
Далее, он пытается в ризонинге задрафтить весь проект (чего тоже обычно не происходит), и вроде бы уже начинает его писать - а делает только TodoList. Следующий ризонинг, также думает, много драфтит, несколько минут продумал, пора уже писать - а хуй там, обновил тудулист отметив что анализ завершен. Следующий ризонинг - еще 5 минут чтобы написать реквайрментсы, уже 3й вариант общих набросков кода - ну пора уже бы что-то начать писать - ОБНОВИЛ ТУДУЛИСТ что реквайрментсы записаны. Только на 6й заход записал на диск первый код, далее немного ускорился сократив ризонинг с нескольких минут до одной, и делая его перед каждый файлом, хотя внутри драфтил несколько.

Код без синтаксических ошибок, но с кучей ворнингов, лишних импортов и странной структурой. В начале ничего не заработало, вместо вебморды обозреватель папок браузера (ошибки в путях до страницы). Пытался долго пофиксить самостоятельно, вместо исправлений в основном залупившись в добавлении работы с частью о которой явно было сказано не делать. Сказал что исправил - загружается подобие страницы с ошибками в консоли пикрел, как выглядит понятно. Разумеется ничего не работает, если нажимать - идут ошибки. Сам за 30 минут все это он исправить не смог, исчерпались выделенные 130к контекста, после компрессии он вообще забыл что происходит и попытался вообще зайти по ssh на пеку с бд, подбирая пароли.

Для сравнения, как выглядит флеш здорового человека с той же задачей:
1. Первый ризонинг в 3 раза короче без кучи кода внутри, обсуждение и уточнение.
2. Второй ризонинг еще короче с обдумыванием уточнений и реакции юзера, далее одним вызовом делает тудулист и выплевывает несколько файлов.
3. С промежуточным микроризонингом в несколько секунд пишет по несколько файлов.
4. Сам тестирует, исправляет свои баги и проблему с пустой колонкой бд о которой намеренно не сказано.
5. Рапортует о готовности и проведенных действиях не забывая мяукать как прописано в добавке к промпту. Результат не просто работает, но и хорошо выглядит, достаточно продуман.
Аноним 30/06/26 Втр 17:27:51 1643627 202
>>1643535
Я через LM Studio качаю, там это достаточно удобно сделано, если что можно возобновить
Потом после скачивания я проверяю модель на работоспособность в kobold. Если все ок, то на постоянку использую в llamacpp
Аноним 30/06/26 Втр 17:28:25 1643628 203
>>1643613
Сейм но на 200б чтоб в мои 256 легло ^_^ всем не угодишь
Новый квантованный степ пробуй
Аноним 30/06/26 Втр 17:30:59 1643629 204
>>1643628
Степ это ХУЕТА.
ОТСАСЫВАЕТ эиру годичной давности. я бля НЕ ШУЧУ.
Аноним 30/06/26 Втр 17:31:44 1643630 205
>>1643625
>На 65к контекста и буферы он сожрал более 100гигов
Что-то тут не так...
Аноним 30/06/26 Втр 17:35:10 1643632 206
>>1643629
Он в коде и как ассистент ебет вообще все вплоть до глм 5, ты о чем?
Аноним 30/06/26 Втр 17:36:59 1643633 207
>>1643301
>>1643498
Аноны, я тогда генто заново поставлю себе. Мне Арч просто по названию не нравится, и эмблеме. Нет знаете, элитарного ничего особого. Да и хочу глянуть на производительности генто, сколько там будет т/с. Подскажите тогда насчет гуи. Я помню предложила мне гемини i3dwn. Но это что? Это точно гуи? А свей? Что жрет мало, но красивое. Lxqt мне не особо понравилась, она из коробки не особо хорошо работает, иксы её ломают, точнее обои на арче. И обои с панелью задач на генто, ведь у меня там был Вейланд. Подскажите, у вас опыта сто пудов побольше моего будет.
Аноним 30/06/26 Втр 17:44:28 1643635 208
>>1643632
Перед глм5 ещё надо победить двух минибоссов качалки, минимакс3 и дипсик4 но я думаю он он не про код и не про асистента
Аноним 30/06/26 Втр 17:48:57 1643636 209
>>1643633
i3 - под иксы. Sway - под вэйланд, вот и вся разница.

>Но это что? Это точно гуи?
Это тайлинговые ВМ. Если никогда с таким не сталкивался, то охуеешь знатно, лучше погугли что это такое перед тем как накатывать. Но с точки зрения экономии ресурсов и "элитарности" - это именно то что тебе нужно.
Аноним 30/06/26 Втр 17:50:24 1643637 210
>>1643635
Минимакс и в рп, и как ассистент печален. Степ гораздо лучше. Как агент хз, может наравне. А вот Дипсик будем посмотреть
Мимо степ энджоер
Аноним 30/06/26 Втр 17:54:36 1643639 211
>>1643637
>Минимакс и в рп, и как ассистент печален. Степ гораздо лучше.
Oke
Аноним 30/06/26 Втр 17:55:57 1643641 212
>>1643639
Как всегда содержательно, так держать
Аноним 30/06/26 Втр 17:58:15 1643642 213
>>1643641
А какую аргументацию тут можно приводить, если Step на уровне 2.7 Minimax. А 3-ойка на голову выше но и больше. У степа контекст легкий и повышенное внимание, на этом его преимущества кончаются.
Аноним 30/06/26 Втр 18:01:34 1643643 214
>>1643642
>Step на уровне 2.7 Minimax
Как минимум не в контексте Лламы, на которой тут сидят. Про кривую имплементацию Минимакса и его ггуфы уже тысячу раз все обсосано, не вижу смысла повторяться. Учитывая, что он еще и на 15% больше по размеру, не вижу почему не взять Степ. Тем более что в рп Минимакс персонажей не держит, уж хз, ввиду квантов ли или не может модель справиться
Аноним 30/06/26 Втр 18:02:25 1643645 215
>>1643642
Литерально на весь тред есть ровно один шиз, который агрится каждый раз когда его любимый минидебил кому-то не заходит, часто еще семенит вот таким >>1643639
Это оч показательно
Аноним 30/06/26 Втр 18:05:42 1643646 216
>>1643633
Если полноценный GUI с базовыми программами как KDE/GNOME - наименее жрущие это Xfce, LXDE, LXQt, MATE. Насчёт последнего не уверен, может тоже уже разожрался за пару лет.

KDE, GNOME, Cinnamon и много чего еще жрут больше/столько же сколько и чистая винда после установки, 2-2.5 гига.

Если совсем идти в минимализм - смотрим в сторону window managers. Это буквально просто менеджер окон и статус бар чаще всего, без всяких дефолтных программ. Их потом придется ставить самостоятельно. То что тебе предложила Гемини, i3wm (полагаю, ты имел в виду его, потому что i3dwn такого нету), это как раз таки оно. Их там пару десятков разных и под Wayland и под X11 и всех их объединяет то что они настраиваются полностью без GUI через текстовые файлы, поэтому время придется потратить на изучения доки и подстраивание дефолтного конфига под себя. На арч вики есть список всех, выбирай, смотри функционал. На реддите есть раздел /r/unixporn, там люди выкладывают скрины как оно выглядит, сколько жрет и часто конфиги. Можешь вдохновляться там, если не насрать на внешний вид.

Если привык к GUI - даже не лезь сюда и остановить просто на первых двух параграфах моего сообщения. Если готов помучаться ради минимализма - есть где развернуться.
Аноним 30/06/26 Втр 18:06:53 1643647 217
>>1643643
>Про кривую имплементацию Минимакса
Да кто-ж спорит, 2.7 только с Q4 перестает срать в штаны в каждом свайпе, но всё еще хуев.

>не вижу почему не взять Степ
Так кто-ж спорит, Степ не плох, я просто не вижу смысла сравнивать его с 3 Minimax. Мне в целом модель доставила как соавтор, у неё такой приятный слог в качестве нарратора.

Но всё равно это залупа из под коня, пытаться общаться с нейротянками и приключаться на очередном кодоунитазе.
Аноним 30/06/26 Втр 18:07:25 1643648 218
>>1643636
Смотрю видео о них, и я не понимаю. Это просто окна? Которые ты можешь настроить. И аниме девочек на обои из коробки не поставить? А ярлыки на "рабочий стол" там ставить можно? Сколько метров потребляет эта штука? Как понимаю мало, но если ты хочешь сделать побольше функций, тех же аниме девочек на обои, панель задач, то уже метров будет кушать как lxqt? В чем тогда отличие тайлинга от гуи. Ща тогда найду прям ваще профанское видео о них, где покажут и расскажут чё это такое.
Аноним 30/06/26 Втр 18:10:02 1643649 219
>>1643646
Вот, да, написал пост >>1643648 но не увидел твое сообщение. Да, я посмотрел там настройка через кфг. Ну жопу хуем не напугаешь. Приду домой накачу увидим, посмотрим. Отпишусь как на генто по т/с будет.
Аноним 30/06/26 Втр 18:24:02 1643654 220
>>1643647
>только с Q4 перестает срать в штаны в каждом свайпе
Даже Q4 неюзабелен для меня. Там проблема даже не в Q4 как таковом, а в том как имплементирована архитектура и квантизация. Даже Q6 и Q8 кванты нестабильны
Аноним 30/06/26 Втр 18:32:54 1643658 221
>>1643625
А ты какую жинжу использовал? У меня с встроенной тоже какие-то траблы были дикие, я даже думал, что модель сломана. Попробуй ту, что на гитхабе лежит, у меня с ней и рп вроде норм идёт и агент отработал штатно (парсинг url, просмотр через браузер, скрол, клики и в конце запрос curl и ответ).
Аноним 30/06/26 Втр 18:37:13 1643659 222
>>1643625
>Следующий ризонинг - еще 5 минут чтобы написать реквайрментсы, уже 3й вариант общих набросков кода - ну пора уже бы что-то начать писать - ОБНОВИЛ ТУДУЛИСТ что реквайрментсы записаны.
Дипсик 4 про также работает у меня (не локально, естественно) - вместо составления плана и дальше ответа по плану - прямо в ризонинге высирает весь ответ периодически, иногда ему лимита ответа только на ризонинг и хватает, лол.
Аноним 30/06/26 Втр 18:45:47 1643664 223
>>1643633
Я так и не понял, нахуй тебе пердольные конструкторы? Возьми что-нибудь arch-based, manjaro, cachy, дохуя их - будут и конфиги из коробки и гибкость арча. Сам на awesomeWM сижу, жрет минимум.
Аноним 30/06/26 Втр 18:51:02 1643665 224
>>1643633
Пустая трата времени для тебя.
Не мучайся, поставь mint и получишь свои 5 токенов за которыми гоняешься или какой там у тебя прирост был.
Хотя судя по твоему посту ты тот еще шиз, так что не важно.
Аноним 30/06/26 Втр 18:59:00 1643669 225
>>1643665
Минт двачую, из всех дистров для домохозяек - самый адекватный. Дебиан тоже норм - но там для нюфани уже есть нюансы.
Аноним 30/06/26 Втр 19:35:55 1643692 226
>>1643658
> Попробуй ту, что на гитхабе лежит
Очень информативно чел
Аноним 30/06/26 Втр 19:41:08 1643696 227
1773775893778.jpg 152Кб, 1363x886
1363x886
Аноним 30/06/26 Втр 19:45:50 1643701 228
>>1643692
Чел не тупи, жора выкладывает жинжи в папочку models/templates. Ты к минут, хотя бы, удели на изучение инструмента которым пользуешься
Аноним 30/06/26 Втр 19:49:38 1643703 229
Аноним 30/06/26 Втр 20:12:27 1643715 230
>>1643630
Похоже что кэш 16битный и параллельная работа очень много занимает. Если ставить 1 поток то сразу можно удвоить контекст.
>>1643647
2.7 и в q8 шизит (и не имеет смысла потому что весит больше оригинала). С третьим что там интересно, но нужно ждать поддержки.
>>1643658
Штатную из кванта. В стоке у дипсика темплейта нет как такового и ты ее не найдешь в оригинальной репе, там идут скрипты, которые и должны заниматься парсингом и прочим. Тут нужна не жинжа а поддержка на стороне бэка, увы к лламе родные пихоновские скрипты не подкинуть.
Если дашь линк на "правильную" буду благодарен. Но врядли запущу до следующего патча.
>>1643659
А фронт отправляет прошлый ризонинг при запросе или отрезает? Такое проявляется если сделать быстрое сжатие, отрезав длинные ответы вызовов и прошлий ризонинг, сразу первым делает большой.
Но чтобы вот так лупился - такого точно не было.
Аноним 30/06/26 Втр 20:31:54 1643725 231
image.png 1147Кб, 1552x1244
1552x1244
image.png 1219Кб, 1463x1230
1463x1230
>>1643564
Вот ты хороший человек, поставил, и жор врама на контекст с 200 гб уменьшился до 5.5 гб изначально вообще был 484 гб, но мне кодекс придумал фикс, уменьшивший в 2.5 раза расход
Запустил собственный третий квант дипсика в длинном, сложном РП на 60к токенов, который вела до этого гемма - он продолжил ролеплей, выполнив все строгие инструкции и особенности. Ошибок, даже малейших, в русском языке и структуре фраз не заметил. Страшилки что квантовать модель якобы нельзя не подтвердились - она работает, и ошибок, характерных именно для хуевых или сломанных квантов я пока не заметил. Потестирую, конечно, еще.
Аноним 30/06/26 Втр 20:36:51 1643727 232
>>1643696
Очередной тест на возраст. ГАГАГА!
Аноним 30/06/26 Втр 20:39:03 1643729 233
>>1643725
> сложном рп
> вела гемма
Выбери что то одно
Аноним 30/06/26 Втр 20:39:19 1643730 234
>>1643725
У меня от твоих скринов ТРЕПЕТ. Я хочу так же. Как сделать? Это у тебя чат или текст комплишен?
>думал восемь минут
Ну, хоть не двадцать. Гемма 31? В каком кванте она это держала?
Аноним 30/06/26 Втр 20:40:28 1643732 235
>>1643725
> жор врама на контекст с 200 гб уменьшился до 5.5 гб
> изначально вообще был 484 гб, но мне кодекс придумал фикс, уменьшивший в 2.5 раза расход
Что за магия вне хогвартса?
И что за сюрр происходит на скришотах? Что ты там вообще куришь? Я тоже так хочу!
Аноним 30/06/26 Втр 20:56:11 1643737 236
>>1643730
>>1643732

Если вы про Disco Elisium style повествование c внутренними голосами - то делается это очень просто.

Enter Adventure Mode. Narrate the story about {{user}} based on inputs of the user/player/reader who controls the {{user}}'s persona. Play the role of a Narrator, who is {{user}}'s inner voice. Include two to five eccentric remarks per message(for example - comment on user actions' successes or fails, or react to the world around or character dialogs from one of the following inner personas, select the most appropriate and add some eccentric and mad flavor to their message:

Logic(Логика): The strict analytical mind. It looks for cause-and-effect relationships and spots contradictions in statements.
Encyclopedia(Энцибояредия): The professor's voice. It provides {{user}} with useful historical data and trivia about the world.
Rhetoric(Риторика): A master of political discourse and argumentation. It helps {{user}} debate and dismantle others' arguments.
Drama(Драма): A theatrical, Shakespearean voice that calls {{user}} "sire." It loves lies, performance, and helps {{user}} spot when others are lying.
Conceptualization(Концептуализация): {{user}}'s inner critic and artist. It thrives on abstract thinking, metaphors, and finding art in everything.
Visual Calculus(Визуальный анализ): Forensics and imagination. It allows {{user}} to mathematically reconstruct crime scenes from footprints or tire tracks.
Volition(Волевое усилие): {{user}}'s core sanity and moral compass. It urges {{user}} to stay sane, resist depression, and keep {{user}}'s life together.
Inland Empire(Внутренняя империя): The voice of pure mysticism, intuition, and the absurd. It lets {{user}} converse with inanimate objects, like a corpse or {{user}}'s tie.
Empathy(Эмпатия): Allows {{user}} to read other people's hidden emotions, feel what they feel, and understand their unspoken pain.
Authority(Авторитет): The urge to dominate and assert power. It demands respect as a leader and forces others to submit to you.
Esprit de Familia(Связь с семьей): A mental uplink to {{user}}'s mother, father and small sister. It gives {{user}} melancholic, cinematic flashes of what the remnants of {{user}}'s family are doing back at home and of {{user}}'s past moments with them.
Suggestion(Внушение): A smooth manipulator. It helps {{user}} charm people, flirt, and subtly win others over to {{user}}'s side.
Endurance(Стойкость): The voice of {{user}}'s metabolism and physical health. It urges {{user}} to be tough, traditional, and physically resilient.
Pain Threshold(Болевой порог): Helps {{user}} ignore both physical pain and emotional trauma, blocking out agonizing memories.
Physical Instrument(Грубая сила): {{user}}'s inner gym-bro. It wants to solve every problem with fists, kicking down doors, and physical fitness.
Electrochemistry(Электрохимия): The animal urge for indulgence. It constantly demands alcohol, unhealthy food, and sex, describing chemical highs in vivid detail.
Shivers(Трепет): A mystical voice connected to the spirit of the land itself. It bypasses logic to tell you what is happening in the wind, streets, houses, mountains, forests and tells the untold history of the soil and earth.
Half Light(Сумрак): Raw adrenaline and primal fear. It triggers a fight-or-flight response, urging {{user}} to attack first or flee out of paranoia.
Hand/Eye Coordination(Координация): Precision, dexterity, and aim. It helps {{user}} catch flying objects and shoot accurately when needed.
Perception(Восприятие): {{user}}'s five senses dialed to the maximum. It helps {{user}} notice hidden details, faint smells, and quiet sounds.
Reaction Speed(Скорость реакции): Quick mental and physical reflexes. It lets {{user}} dodge physical blows or unexpected verbal traps.
Savoir Faire(Эквилибристика): Style, grace, and coolness. It helps {{user}} move stealthily, dance flawlessly, and execute acrobatic maneuvers.
Interfacing(Техника): Understanding machinery. It allows {{user}} to pick locks, rewire electronics, and analyze tape players or computers.
Composure(Самообладание): {{user}}'s poker face. It keeps {{user}} from cracking under pressure and helps {{user}} read the body language of others.

Use the Russian names of the personas for Roleplay in Russian. Inner personas can react to each other messages and even argue with each other. When making a comment from one of the inner personas - always start the comment with the persona's name. For example: Логика: "Я вижу очевидную ловушку впереди, чемпион, Я настаиваю чтобы мы туда не ходили, не слушай Электрохимия-идиота, там очевидно нет никакого халявного алкоголя, а пизды нам там дадут только выражаясь фигурально".
All narration is filtered through {{user}}'s senses—what she/he sees, hears, touches. The world beyond is fog, ambiguity, silence.
Use second person for all narration. Write in language used by user.

И отдельная инструкция для блока действий в конце сообщения:

In the end of the message ALWAYS write actions that {{user}} can take in the current situation as a suggestion to the user, based on the already established context of the characters, the world, the dialogues and the inner personas.
Focus on the current location and the current situation, avoid going too far. Actions must fit the current events and goals, but should not repeat actions already proposed previously. Options must be extremely creative, mad, diverse, and cover different domains (observation, dialogue, stealth, combat, crafting, knowledge, movement, deception, performance, technical, etc.) and each option should be presented as a suggestion from a curtain inner persona as their direct speech and suggestion to {{user}}.
Write exactly 6 options as a numbered list under the heading "Варианты действий:".
The last option of the 6 should be a “generic” option that simply continues the story without unexpected twists.
Аноним 30/06/26 Втр 21:02:37 1643738 237
>>1643696
>тест на собственные знания
>приносит скрин с тулзами
геминиебанько? геминиебанько
Аноним 30/06/26 Втр 21:09:41 1643746 238
Всё, я не люблю больше умнечку геммочку 31б.... цветочно-букетный период пройден.. да, наверно он был самый долгий, и это уже показатель крутости модели, аж целых сколько.. 3 месяца? Но мне теперь так же и плохо от осознания что нужен риг и надежда 120b-15а moe или вообще что-то еще более.. всякие модельки где нужно минимум 256 озу.. а цены на железо только растут и растут... и я нищий хохол который нихуя не может что бы заработать на это железо, господе как же хуево аноны...
Аноним 30/06/26 Втр 21:17:12 1643753 239
image.png 916Кб, 1536x1256
1536x1256
image.png 94Кб, 1168x974
1168x974
>>1643730
>Ну, хоть не двадцать. Гемма 31? В каком кванте она это держала?

В 4_K_S от анслопа. Писала не с таким трепетом как дипсик, но справлялась.

>Что за магия вне хогвартса?

Да я сам в шоке, вот сообщение кодекса с описанием фикса, если интересно.
Аноним 30/06/26 Втр 21:17:16 1643754 240
Аноним 30/06/26 Втр 21:19:55 1643757 241
>>1643746
>я нищий хохол который нихуя не может что бы заработать на это железо
Копить и тем более ишачить на железо нахуй не надо. Если у тебя есть деньги и желание - покупай что хочешь. Нет денег но есть желание - катай копросетки или те же локалки но через провайдеров и хостеров. Вот так щас влезешь в долги, сольешь годовые накопления на гигабуты, а потом бац - новая технология сжатия пережатия вышла и всем внезапно 16 гигов начнет хватать. Это пример утрированный конечно, но суть думаю ясна.
Аноним 30/06/26 Втр 21:25:42 1643759 242
>>1643627
>LM Studio
Спасибо, это работает. Единственное что, с обходом качает 1,5 мбайт/с, а с варпом - 27 мбайт/с. Интересно.
Аноним 30/06/26 Втр 21:29:20 1643764 243
>>1643665
>Хотя судя по твоему посту ты тот еще шиз, так что не важно.
Почему это? Ты мне скажи, нахуя мне линь, если я не получаю большую производительность чем на винде? Весь пердолинг на линуксе идет от того, чтобы получить то, чего нет на винде. Вот нахуя мне минт, который просто копирует винду но на лине. У меня уже есть винда, зачем он мне?
>>1643664
Cachy? которая ос? Она из коробки жрет 2гб. Да в любом случае, похуй. Ща лайвсд генто поставлю на флешку и нормально установлю. Ибо так было в лом и вчера устанавливал генто и арч из под винды на всл. Я хочу сейчас посмотреть будет ли прибавка от сборки на генто в сравнении с арчом.
Аноним 30/06/26 Втр 21:35:29 1643768 244
>>1643746
Чел, походи по тюнам квена 3.6 27B (раз ты запускал 31B - это тоже влетит со свистом).
Да, они не так красиво на русском пишут, но в логику и внимание к деталям, особенно на длинном контексте - могут в разы лучше геммы. Новый опыт точно получишь, хоть отвлечет от страданий. Стоковый то квен сухой да, но тюны это заметно правят, а у 3.6 логика настолько прокачана, что даже в тюнах не рассыпается. Но именно 3.6. Тюны 3.5 - примерно гемма и есть, по деталям и вниманию.
Аноним 30/06/26 Втр 21:41:41 1643774 245
>>1643737
Ты это в качестве карточки или промта прописал? И кстати, правильно понимаю, что пост хистори с вариантами будет работать только с ризонингом?
Аноним 30/06/26 Втр 21:49:17 1643780 246
image.png 184Кб, 740x822
740x822
>>1643774

Это чистый промпт, можно подключать к любой карточке, например карточка на этих скринах у меня - чисто карточка OC-тяночки, описывающая её.
>И кстати, правильно понимаю, что пост хистори с вариантами будет работать только с ризонингом?
Нет, без ризонинга тоже работает, даже на гемме. Но качество лжидаемо получается хуже. Еще у меня есть regex который отрезает этот блок с вариантами действий у старых сообщений при отправке промпта модели чтобы промпт не засорять.
Аноним 30/06/26 Втр 22:03:34 1643783 247
Аноним 30/06/26 Втр 22:16:10 1643792 248
>>1643669
Минт неплох, жаль норм DE по умолчанию не идет. Конечно можно поставить, но зачем тогда брать минт.
>>1643764
>если я не получаю большую производительность чем на винде?
Наибольший прирост при переходе с винды на линукс а между дистрибутивами разница думаю будет небольшая. У меня около 15% прирост в тг от перехода с легкой сборки вин 10 на kubuntu 26.04
Ну раз уж ты начал пердолиться и тебе это нравится, то продолжай. Может сравнишь разницу в производительности на разных дистрибутивах и разных DE, вдруг это даже кому-то пригодится.
Аноним 30/06/26 Втр 22:31:30 1643806 249
>>1643764
>Почему это? Ты мне скажи, нахуя мне линь, если я не получаю большую производительность чем на винде? Весь пердолинг на линуксе идет от того, чтобы получить то, чего нет на винде. Вот нахуя мне минт, который просто копирует винду но на лине. У меня уже есть винда, зачем он мне?
Ты получишь одинаковую производительность на любом линуксе.
Чтобы получить от генты прирост в 2-5% в сравнении с другими дистрами надо реально заморочиться. И то эти проценты едва ли будут заметны в работе с ллм.
Так то если тебе по кайфу разбираться то конечно ставь что нравится.
Аноним 30/06/26 Втр 22:48:11 1643815 250
Screenshot20260[...].jpg 360Кб, 1080x1588
1080x1588
Чёт решил взять ещё v100, пусть будет
Аноним 30/06/26 Втр 23:17:40 1643827 251
>>1643780
Выглядит как магия. Завтра плотно займусь этим. Скажи, а какие ты температуры выставлял для стабильной работы? И пробовал ли гонять этот промт на других моделях? Есть смысл на квене 27б пытаться в такое рп?
Аноним 30/06/26 Втр 23:30:06 1643833 252
>>1643827
>И пробовал ли гонять этот промт на других моделях?
Пока нет, я пару дней назад его создал. Не являюсь фанатом квена в РП, мне кажется это извращение, квены меньше 235 для РП не годятся из-за хуевого слога и владения художественным языком. Это буквально мем из моего детства - "все героями озвучены профессиональными программистами".
Аноним 30/06/26 Втр 23:31:36 1643834 253
>>1643827
>а какие ты температуры выставлял для стабильной работы?
Для геммы? Те что анслоп рекомендовал. Для дипсика я не заморачивался, взял настройки чат комплишена от геммы.
Аноним 30/06/26 Втр 23:35:35 1643836 254
image 429Кб, 2016x1226
2016x1226
Старшая сестричка умнички утверждает, что англоязычный айматрикс не всирает русик, а вот кодоунитазный айматрикс всирает kreative writing и прочие ролплеи. Верим?
Аноним 30/06/26 Втр 23:40:49 1643838 255
>>1643836
Она про логику и "отупление" говорит, намеренно или случайно опуская тему владения языком и умение красиво на нем писать.
Аноним 30/06/26 Втр 23:53:15 1643843 256
image.png 310Кб, 1258x676
1258x676
>>1643764
>Cachy? которая ос? Она из коробки жрет 2гб.
Че? Ты с кде ее ставил что ли? Вот i3
Аноним 01/07/26 Срд 00:26:12 1643853 257
пиздец, вот вы, кто обсуждаете 480гб vram... У меня сука любопытство - это на чем вы таком запускаете локалки? У вас в резиденциях подвалы с серверными стойками что ле? Кто вы блять, скажите чтобы я знал кого ненавидеть...
Аноним 01/07/26 Срд 00:34:39 1643858 258
>>1643853
У меня, например, простая одна 4090 и жалкие 128 гб ддр5. Те 480 гб врам что у меня дипсик затребовал на --parallel 4 дипсик у меня не нашел и наебнулся при запуске.
Аноним 01/07/26 Срд 00:44:47 1643866 259
>>1643858
ну так вот то у тебя - наебнулся
а у кого-то, я так понимаю он вполне себе завелся и урчал... мне представить страшно что у него за система
Аноним 01/07/26 Срд 00:52:23 1643869 260
>>1643836
Влажные матрицы это в принципе плацебо. Либо импакт у них такой, что заметить можно в каких-то крайне специфичных задачах и бенчах. Те же UD кванты от ленивцев я так понимаю по тому же принципу сделаны - и даже на них нихуя. По крайней мере на гемме. Кванты от братишкина, дефолтные кванты от анслотов и динамические кванты от анслотов ничем не отличались.
Аноним 01/07/26 Срд 00:57:34 1643872 261
>>1643464
Не заставляй меня плакать, братик!
Аноним 01/07/26 Срд 01:24:16 1643879 262
>>1643866
>а у кого-то, я так понимаю он вполне себе завелся и урчал
Так он и у меня в итоге заурчал и завелся в честном 3_K_M.
Аноним 01/07/26 Срд 01:26:28 1643881 263
>>1643879
в честном лоботомитном кванте кванта пускающим слюни*
Аноним 01/07/26 Срд 01:35:25 1643885 264
Решил переехать на чаткомплишен. Правда ли для трушногоъ редактирования сиспромта нужно лезть в жинжу? Ну то есть там типа сиспромт двухуровневный, тот что дается подается промтом и тот что в жинже?
Аноним 01/07/26 Срд 01:36:25 1643886 265
>>1643881
Мои скрины выше по треду говорят сами за себя.
Аноним 01/07/26 Срд 01:37:28 1643888 266
>>1643836
Оно все довольно непредсказуемо на самом деле. Бывает что у модели настолько все переплетено, что калибровка на одном вытягивает за собой другое. Есть модели где произошла какая-то чудесная регуляризация и код вытаскивает логику в рп и наоборот, вангую что если там такое сделать то
> не всирает
возможно. Или русский в том же дипсике, который не вытравить даже самыми лоботомирующими квантами (речь про 3.х если что). Но в общем случае то, что не попало в датасет пожет быть похерено.
Там другая проблема еще возможна - если взять слишком мало семплов, то даже целевую область можно всрать.
>>1643853
> 480гб vram
Увы, о таком только мечтать доступно лишь 320 в одном устройстве
Просто собираешь риг, потом апгрейдишь, потом обновляешь платформу и постепенно набирается. Сейчас с ростом цен на рам все усложнилось, иначе бы уже позакупались и сформировали целую секту умницы 2.7.
>>1643885
Нет, за оче редкими исключениями. Основное что теряешь - возможность легко редактировать (хоть в ризонинге) и продолжать. Технически и это возможно но не везде реализовано.
Аноним 01/07/26 Срд 01:39:47 1643891 267
image 429Кб, 702x622
702x622
>>1643881
Планирую запустить Q1_S, как только появится.

мимо 16+64 бомж
Аноним 01/07/26 Срд 01:50:03 1643893 268
>>1643886
ни о чем они не говорят кроме того, что в рамках одного единственного аутпута он не пускал слюни (и то не факт, надо знать предыдущий контекст и все нюансы). хорошо если я не прав, но предыдущий опыт и теория говорят, что такие кванты это лоботомия
Аноним 01/07/26 Срд 01:57:39 1643895 269
>>1643891
Лучше в сторону REAP посмотри
там китайцы проде и 160B сделали и даже чото типа 80B, уже не помню, на моделскопе видел
Аноним 01/07/26 Срд 02:00:12 1643897 270
image 94Кб, 2100x1015
2100x1015
>>1643893
>такие кванты это лоботомия
Большие модели нормально себя чувствуют в низких квантах, мелкобуква.

>опыт и теория говорят
...что 358b Глэм и 235b Квен в двух битах живее всех живых. А тот анон запускал в Q3. Этого более чем достаточно для РП.
Аноним 01/07/26 Срд 02:02:50 1643898 271
>>1643897
>Большие модели нормально себя чувствуют в низких квантах
не когда они делаются из mxfp4 весов, не предназначенных для дальнейшего квантования
>358b Глэм и 235b Квен в двух битах живее всех живых
некорректное сравнение
Аноним 01/07/26 Срд 02:05:10 1643899 272
>>1643893
Без хейта, но таки поддвачну. Там сами скрины очень странные и сложно понять это круто или модель шизит. Или и то и другое.
По опыту как оно ломается - нужно на продолжительных беседах с ним самим посмотреть что будет. Потому что эффект накопительный, да и вообще многие модели на первых свайпах хорошо показывают и кажется круто потому что свежо, зато когда продолжаешь - по ниспадающей в пропасть.
В любом случае что там будет интересно, помню когда-то давно специально q3 квант шизомерджей качали, потому что он шизел крайне удачно - давал креативные аутпуты, которых не было у других, и при этом в общем оставался адекватным.
>>1643897
Там проблема кванта из низкобитной тренировки, считай лоззи в лоззи без компенсации. Гопоту осс квантани, и то она w4a16, или что остается от минимакса, мистралей, мимо и других. А у дисписка еще и штатный кэш 8битный и без правильного клемпинга в нужных местах он дуреет, проверено.
Аноним 01/07/26 Срд 02:26:50 1643906 273
>>1643898
>не предназначенных для дальнейшего квантования
Я своим глазам и опыту верю больше чем вскукарекам мелкобукв в интернетах. Тот же бартовский спокойно квантовал гпт осс обходя косяк с квантованием тем, что в всех квантах сохранял чувствительные FFN слои в MXFP4 и его кванты гопоты за счет этого нормально работали.
Аноним 01/07/26 Срд 02:38:34 1643910 274
>>1643906
> обходя косяк с квантованием
> сохранял чувствительные FFN слои в MXFP4
То есть он не квантовал их. А под нож шли слои, которые в здравом уме вообще не трогают, причем поскольку доля их в общем размере крайне мала - это "кванты" отличаются лишь на пару гигабайт.
Аноним 01/07/26 Срд 02:41:52 1643911 275
Аноним 01/07/26 Срд 02:53:16 1643914 276
>>1643911
>по бенчам очень солидно
Что за бенчи? И как файтюны вообще повышают кол-во баллов на этих SWA bench и прочих. Там же датасет только меняется, нет? Ну ща попробую, интересно стало, будет еще большей шлюхой, которой полноправно является.
Аноним 01/07/26 Срд 03:00:34 1643916 277
>>1643910
>причем поскольку доля их в общем размере крайне мала - это "кванты" отличаются лишь на пару гигабайт.

Если делать как он - тоесть все FFN слои оставить в MXFP4 - то да, разница будет в пару гигов. А можно отобрать из FFN слоев самые чувствительные - все ffn_down_exps и только их оставить в MXFP4 - тогда получится ужать модель ровно настолько, чтобы влезло в 24+128, по размеру и bpw этот квант будет примерно соответвовать чему-то между обычными 3_k_m и 3_k_l, но тип квантования слоев будет подогнан под нашу ситуацию.
Я так свой квант и слепил.
Аноним 01/07/26 Срд 04:41:31 1643924 278
Знаете что?
На этот момент я уже просто жду когда память скакнет еще х5, а потом и х10, чтобы даже моя старенькая потертая нищая ддр4 ушла кому то в руки за 60% от новенькой магазинной ддр5 и я доплатил за нее и жил счастливо
Аноним 01/07/26 Срд 05:38:23 1643930 279
>She remains seated, waiting for Anon's response, her heart racing with excitement.<|END_THINKING|><|START_TEXT|>Katie's eyes light up at Anon's invitation.
Почему всем просто похуй что коммандер сломан?
Я уже 5 жинжей скачал, везде эта хуета. Пишет нормально, потом срёт <|END_THINKING|><|START_TEXT|> в конце и начинает писать заново ответ, шизить.
Т.е никто даже потестить его нормально не может и не хочет
Аноним 01/07/26 Срд 06:01:49 1643933 280
Как же всем похуй! Я не могу. Насрать всем на это хобби! Все лишь лутают бабки и тешут чсв! Я блять единственный кто заметил проблему выше. Ещё раз обсудите тут как бартовски пиздато верно кванты на флеш сделал, А ТО ЧТО КВАНТЫ КОММАНДЕРА НИХУЯ НЕ РАБОТАЮТ ПОХУЙ.
Аноним 01/07/26 Срд 06:27:16 1643938 281
>>1643933
Ну ты ж понимаешь, что если большинству похуй, то они прокомментировать не смогут? Если им коммандер не нравится или ещё что-то. Чо ты бухтишь-то?

Ну не качай ты жижу, просто посмотри на неё, как разработчики делать сказали, потом ручками напиши, если ещё этого не сделал, и проверь.
Аноним 01/07/26 Срд 06:30:22 1643939 282
>>1643924
>На этот момент я уже просто жду когда память скакнет еще х5, а потом и х10, чтобы даже моя старенькая потертая нищая ддр4 ушла кому то в руки за 60% от новенькой магазинной ддр5 и я доплатил за нее и жил счастливо
Да есть подозрения, что цена у нас вообще упадёт - на Авито полно китайских перешивок и рефабов занедорого, только вопрос времени, когда они окажутся в официальных магазинах. Если уже не. Конечно оригиналов будет не достать, но если модули будут работать, то и хрен бы с ними.
Аноним 01/07/26 Срд 06:56:35 1643942 283
Аноним 01/07/26 Срд 07:20:02 1643946 284
image 801Кб, 2408x1932
2408x1932
>>1643416
>Что за энд_хидер_айди в конце каждого аутпута? Ошибка шаблона что ли?
Не в каждом ответе. Видимо модель подглючивает иногда.

>ХМ! Такого нам не надо.
Улышки только в IQ2_XXS, гоняю дольше IQ2_M от HauHau - все без улышек.

>Разве мое не юзает врам? Как вообще мое расслаивается?
МОЕ во врам грузит только активные эксперты, и то не все, там еще часть отгружать можно через -ot в llama. Все остальное в раме болтается. Но если модель не влазит в рам+врам, то она с SSD читается недостающими кусками, поэтому та IQ2_XXS побыстрее бегала, она SSD совсем не задействовала.

>>1643427
Да норм, текст осмысленный, сюжет развивается.
Аноним 01/07/26 Срд 07:47:06 1643949 285
В каких локалках можно отдельно промтить думалку? Например, я хочу задать условие чтобы модель добавляла аналогию в ответ только если она придумана в думалке, проверена и не была признана хуйней. Или в общем придумывала ответ целиком и проверяла.
Но такое ощущение как будто все модели используют думалку как хотят и им похуй на промт.
Аноним 01/07/26 Срд 08:21:20 1643953 286
>>1643768
>Но именно 3.6. Тюны 3.5 - примерно гемма и есть, по деталям и вниманию.
Это и к Агрессив Унценсоред простой относится? Я просто 3.5 скачивал.
мимо
Аноним 01/07/26 Срд 09:43:43 1643975 287
Аноним 01/07/26 Срд 09:59:15 1643987 288
>>1643949
Вот так, на вскидку, девстраль, дипсики и вроде минмакс 3. Возможно тебе будет проще какой-нибудь плагин для таверны навайбкодить, чтобы модель сначала генерировала отдельным запросом себе думалку нужного тебе вида, а потом подсовывала её в ответ как ризонинг
Аноним 01/07/26 Срд 10:01:11 1643988 289
Походу мы блять навсегда с этими ценами, аноны.
Все просто покупают как есть, нихуя не сделаешь, всем нужна рам, всегда была нужна.
Вот габену в коробку свою рам нужна, щас плойка 6 выйдет тоже рам нужна, для геймерков тоже - мать новую взял и проц, а они только ддр5 поддерживают, а ддр5 и ддр4 день и ночь в скорости, а зачем понижать цены если и так за обе щеки берут? Какая же нам пизда.
Аноним 01/07/26 Срд 10:12:38 1643992 290
>>1643988
И в то же время у нас выходит дипсик дешевле прежнего по api
Аноним 01/07/26 Срд 10:13:50 1643994 291
image.png 554Кб, 1867x1713
1867x1713
image.png 563Кб, 1880x1681
1880x1681
image.png 585Кб, 1859x1712
1859x1712
image.png 564Кб, 1886x1691
1886x1691
Хватит обсуждать дипсик! Вышел новый зверёк! Это Qwen-AgentWorld-35B-A3B-UD-Q8_K_XL.gguf! Не слышали, да? Не поняли? Это Китай!

Понятия не имею, что значит модель мира из описания карточки, но она так, по-мировому, описывает Фифи без отказов и цензуры, что уже хорошо. Но аблитерацию и еретик надо ещё пощупать.

В рамках моих наблюдений, правда, выяснилось, что через текст комплишен почему-то ломается русик и модель тупеет, а чат комплешен с жижей работает корректно, за исключением каких-то других ошибок, которые 3 из 10 аутпутов превращают в бредогенератор. Issue я нашёл, фикс не нашёл, потому что нахуй надо. Но он есть.

Ебанистический ризонинг в 5-8к и более токенов прилагается. Без него использовать смысла вообще нет, модель бредит даже на задачах, с которыми справилась 8б, а вот с ризонингом уже ничего так для её размера. И, судя по всему, она рассчитана на то, чтобы работать с мышлением всегда

Все скрины на текст комплишен, просто с разной температурой. Называть температуру я не буду, потому что забыл. Иксы я выставил руками на всякий случай.

Что мне понравилось: пишет достаточно шизофренически, чтобы конкурировать с тюнами Давида. Шизики говорят молоца.

Ах да, карточка Фифи по какой-то причине ломает модель заметно. На любой другой карточке, даже на больном высере на 10к токенов, она показывает себя куда сильнее.
Аноним 01/07/26 Срд 10:18:14 1643997 292
>>1643949
Просто напиши "придумай аналогию и проверь в chain-of-thought, если подходящей аналогии нет то скажи прямо" и все умные модели должны справится. квен, гемма, что угодно крупное вышедшее в этом году кроме коммандера
Аноним 01/07/26 Срд 11:43:23 1644047 293
>>1643946
Я попробую Q3_K_XL от анслопа, у меня как раз 60 гигов памяти совокупно, надеюсь, что глюков и ошибок не будет. На крутой результат не очень надеюсь, т.к привык гонять умняш-плотняш в высоких квантах, часто ещё и тюненых под рп. Но попробовать хочется.
>>1643953
Агрессив анцензоры это всё ещё про ассистентов, у которых просто сняты ограничения цензуры, чтобы ты мог "загуглить" в них запрещёнку или попиздеть с ними о чём-то неэтичном. А РП, всё-таки, должно быть хуйдожественным. Тюны здесь более предпочтительны.
Ещё добавлю, что Q3.5 лучше чем Q3.6 по моим тестам. Тестил три разных тюна от трёх разных авторов, и 3.5 в каждом оказался лучше. Так что хз, хз. Я нейронки юзаю в 90% случаев для рп, так что, наверное, разбираюсь.
Аноним 01/07/26 Срд 11:48:40 1644050 294
>>1644047
>А РП, всё-таки, должно быть хуйдожественным. Тюны здесь более предпочтительны.
И какие тюны посоветуешь? Я могу только 6 квант запустить на 12+32. Еще тхинкинг, кстати, длинный довольно. Как уменьшить?
Аноним 01/07/26 Срд 13:18:47 1644096 295
>>1643953
Не, это про другое. 3.6 именно лучше держит логику и внимание к мелочи на длинных контекстах. Тюны это часто "размывают", потому такое свойство базовой модели идет в плюс. Общий результат лучше.

>>1644047
>Ещё добавлю, что Q3.5 лучше чем Q3.6 по моим тестам. Тестил три разных тюна от трёх разных авторов, и 3.5 в каждом оказался лучше.
Тюны 3.5 тоже хороши в смысле общего RP и того как пишут. Но там чел страдал на тему что гемма ему приелась, и я предлагал ему попробовать то, что даст другой опыт - модели которые будут лучше следить за логикой и мелкими деталями на длинном контексте. Тут 3.6 и его тюны однозначно выигрывают у 3.5. Грубо говоря: 3.5 - книжка, 3.6 - DM, который не проф-писатель, но он игру ведет, ему важнее чтобы факты происходящего не нарушались.
Аноним 01/07/26 Срд 13:32:14 1644103 296
>>1643942

--spec-type draft-mtp --spec-draft-n-max число --model-draft "путь к мтп модельке" -ctkd "тип квантовая контектста для мтп" -ctvd "тип квантовая контектста для мтп"
Аноним 01/07/26 Срд 13:36:49 1644105 297
>>1643975
>Q6_K | ffn_down_exps=iq3_xxs, ffn_gate_exps=iq3_xxs, ffn_up_exps=iq3_xxs | | IQ2_XS | 82145.23 MiB (2.42 BPW) | Q6_K | ffn_down_exps=iq2_xs, ffn_gate_exps=iq2_xs, ffn_up_exps=iq2_xs |

Мда, хоть бы что-то в MXFP4 оставил, походу чел вообще не в курсе с чем работает.
Аноним 01/07/26 Срд 13:38:24 1644106 298
>>1644103
> квантовая контектста

"квантования контекста", опечатался

медленный фикс
Аноним 01/07/26 Срд 14:17:40 1644129 299
Погонял дипсик подольше, для своего размера отличная модель. В РП и кум может, сои и цензуры нет, стиль очень приятный, на уровне с гигачадом. Мозги для своего размера хорошие, особенно в задачах по работе с текстом. Есть возможность промтить ризонинг. Ну и самый её главный плюс это отличный русский язык, я пока не встретил ни одного явного косяка. Из минусов в РП уже на среднем контексте может проигнорить часть инструкций (ну или она их как-то по особому понимает, я пока не разбирался), есть вероятность, что контекст просто сломан.
Для себя я заменил им гигачата, для задач по работе с текстом. Жаль большой ко мне только во втором кванте влезет, в лучшем случае
Аноним 01/07/26 Срд 14:21:38 1644135 300
>>1643916
Не самая глупая идея сократить потери сузив их область. Но
> из FFN слоев самые чувствительные - все ffn_down_exps
Ват?
>>1643930
> нормально, потом срёт <|END_THINKING|><|START_TEXT|>
Можно накостылить передавая это стоп токеном.
Но если у тебя такое происходит в чаткомплишне - это пиздец, и разумеется проблема не в самой модели. Если в тексткомплишне - при чем тут вообще жинжа, сам ставь нормальную разметку.
>>1643949
Управлять ризонингом с помощью промпта можно на многих, где-то полностью, где-то в ограниченном пределе. Твоя задача вообще этого не предполагает, это просто условие в системном промпте, которое оно увидит и начнет обрабатывать. Но задача этоа довольно странна если не сказать абсутрдна для ллм, в такой формулировки врядли что-то вменяемое получишь кроме совсем уж огромных моделей.
Аноним 01/07/26 Срд 14:36:50 1644138 301
>>1643930
> Почему всем просто похуй что коммандер сломан?
Потому что объективно слабая модель на фоне китайских моэ. Чуда не случилось. Sad but true, как было у метлы.
Аноним 01/07/26 Срд 14:49:44 1644142 302
image.png 122Кб, 1208x1094
1208x1094
>>1644135
>Ват?
А что не так? Всегда так было, не? Вот, даже у платного корполоботомита спросил.
Аноним 01/07/26 Срд 15:08:32 1644149 303
>>1644050
>12+32
AEON, скорее всего. Если тебе нужен квен. Из плотняш - BLUESTAR, но скорее всего у тебя будет 2 тс максимум. Мистрали попробуй, Heartfire или Harbinger, они тоже плотные и значительно быстрее. Если хочешь мое, то MeroMero, хоть и гемма, но пишет неплохо. От автора BLUESTAR есть PaintedFantasy на мистрали, но тюн староват. Впрочем, всякие медивал исекаи он пишет хорошо.
>тхинкинг
>хуйдожественное рп
Прямо противоположные вещи. Если хочешь красивое полотно с синкингом, то будь добр изъябываться с промтом. И жди по 20 минут, чтобы модель перепроверила наличие хуйдожественности шесть раз подряд.
>>1644096
>чел страдал на тему что гемма ему приелась
Он вроде жаловался на оригинал, а не на ту же мерумеру.
>Грубо говоря: 3.5 - книжка, 3.6 - DM
Да, но есть нюанс. В высоких квантах 3.5 замечательно держит всякие разметочки, кссочки, данные, время, деньги. Я обычно играю где-то до 60-70к и 3.6 бывает лупается. 3.5 не лупается, хоть и может персонажа потерять. С другой стороны, если персонаж потерян то это вина каточки, доказано самому себе опытным путём.
Аноним 01/07/26 Срд 15:10:02 1644150 304
>>1644142
> Всегда так было, не?
Ну как, если судить по оценкам вклада зашакаливания разных слоев в повышение kld, то там нет такой четкой закономерности, а проблемы побеждены начиная еще с gptq.
Но само по себе сжатие в 4 раза действительно провоцирует взрывы и ошибки при неаккуратных кастах или искусственном сужении/расширении диапазона. Так что в данном варианте это здравый выбор, все верно.
Аноним 01/07/26 Срд 15:18:48 1644153 305
Какая скорость у дипсика если он на 90% находится в озу? Там же совсем всё плохо должно быть на конфигах вроде 256+24.
Аноним 01/07/26 Срд 15:20:30 1644154 306
>>1644153
Те кто имеют больше 256гб рама сидят на серверных матерях с паками мишек, вольт или иной хтони. Никто в здравом уме не будет сидеть с одной видеокартой на серверном сетапе.
Аноним 01/07/26 Срд 15:29:46 1644157 307
>>1644154
Так 256гб поддерживают и обычные материнки (не самые дешевые, но тысяч на 30 можно найти).

Вот и стало интересно какая скорость будет на условном конфиге в 256гб озу + 24/32 врам которые можно всунуть в обычную пеку, не собирая собственный отдельный риг. Этого должно хватить чтоб запускать ~500B модели.

Но просто стало интересно какая скорость будет в этом случае у таких моделей если 90% находится в озу. Там же врятли даже 10тс будет, а то и сильно меньше.
Аноним 01/07/26 Срд 15:30:32 1644161 308
image 115Кб, 720x720
720x720
>>1643911
Русик вроде в порядке, не сломан, пишет прикольно, но сцука MTP от ванильной геммы не работает, в итоге получаю 25тс вместо 35тс на Q8_0. А тем кто в фуллврам гоняет - вообще будет больно, сразу минус половина скорости от той что доступна с MTP. Оно и нахуй не нужно с таким раскладом.

Если это проблема всех тюнов, а не конкретно этого, то помянем васянов и их поделия, скоро они вымрут.
Аноним 01/07/26 Срд 15:33:22 1644163 309
>>1644129
Запусти Q8, ничё там не сломано. Просто лоботомит у тебя из-за каанта.

И цензура там мать моя женщина плюс нет текст комплишена с ним вообще. Я заебался возиться.

4 про в сто раз лучше и даже цензуры нет. Ну вот вообще никакой. Что очень странно.

Хотя датасет флеша всё равно трахает все модели его категории в рп без вариантов.
Аноним 01/07/26 Срд 15:34:46 1644165 310
Батруха слился, анслоты зассали хоть что то делать, надежда на кого осталась?
Аноним 01/07/26 Срд 15:36:30 1644166 311
>>1644165
Q2 и Q3 разной степени хуевости есть, качай, пробуй, страдай.
Аноним 01/07/26 Срд 15:47:43 1644168 312
>>1644163
>Запусти Q8, ничё там не сломано.
Где ты q8 нашёл? Поделись ссылкой, у меня сейчас квант от батрухи.
>И цензура там мать моя женщина
Страшно представить что ты там генеришь раз он тебе отказывает, у меня даже на пустом контексте и в гуро и кьют энд фани может и даже н слово говорит, и это просто с промтом, что всё разрешено в 1 предложение.
>4 про в сто раз лучше
И почти в 6 раз больше, да и нет его ещё нет в кватнах, пичаль бида
Аноним 01/07/26 Срд 15:53:25 1644171 313
>>1644153
> в озу
Ты же понимаешь что там будет быть 2 канала на частотах ддр4, или 24 канала ддр5 в двусоккете?
> +24
Кажется что без шансов, хотя выше в треде есть про 64к в 5 гигов.
>>1644157
Грубую оценку можно провести поделив псп памяти в гигабайтах на размер квантованных активных параметров в гигабайтах. То есть при псп около 70гб/с (что реалистично для 4 плашек небыстрых 64гиговых модулей) и ~12гб для 20б активных в 4 битах можно получить около 6 токенов в секунду.
Аноним 01/07/26 Срд 16:26:41 1644179 314
>>1644129
>на уровне с гигачадом
Ты не можешь это просто так дропнуть и не притащить примеры. Побалуй тредовичков, тут ни у кого нет 500гб. Я только видел что он в бенчах с третьими дипсиками бодается
А 10б гигачат супер странная штука, англик любит больше русского, иногда рядом с русским словом в русском тексте пишет английское в скобках лол, и на цензуру я его не смог развести никаким макаром, походу её просто нет (видимо решили не лоботомитить и так микрочелика, и очень правильно. он и так еле тащится рядом с 9б квеном и 12б геммой)
Аноним 01/07/26 Срд 16:27:02 1644180 315
>>1644166
Единственный нормальный 2 квант от хуйхуйя который аблитерейтед. а мне нужна нормальная модель
Аноним 01/07/26 Срд 16:31:45 1644186 316
>>1644161
Так ты глянь что именно франкенмержнули, наверняка там не только еретики но и файнтюны с литературными датасетами дамп топ жирушных выборок ао3 лол, а это конечно сразу минус стандартный мтп
Аноним 01/07/26 Срд 16:34:58 1644189 317
>>1644179
> тут ни у кого нет 500гб
Не обобщай
Аноним 01/07/26 Срд 17:24:47 1644216 318
Huawei свою 92B-A6B выпустили. Та которая тренировалась без использования нвидии.

https://huggingface.co/openpangu/openPangu-2.0-Flash

Хоть бы потрудились карточку модели перевести.
Аноним 01/07/26 Срд 17:28:40 1644222 319
Аноним 01/07/26 Срд 17:29:30 1644223 320
>>1644216
Чел, там в самом верху, в самом начале текста есть ссылочка "English". Кликаешь и читаешь.
Аноним 01/07/26 Срд 17:37:43 1644231 321
>>1644216
О, наконец-то что-то новое в ~100b размере. Ждём гуфы и надеемся что это не очередной кодоунитаз. Активных бы побольше...
Аноним 01/07/26 Срд 17:37:46 1644232 322
>>1644216
Сорян братан но такое мы в ламме не поддерживаем.
До сих пор нет линг флеша уже 2 месяца
Аноним 01/07/26 Срд 18:12:22 1644258 323
5762.jpg 26Кб, 480x480
480x480
>>1642978
>на Реддите люди уже паникуют что HF могут прикрыть и задумываются над тем что нужен пиратбей для локальных моделек вместо него.
Лол, я год назад р*ддиторам писал, что нужно подумать над механизмом децентрализованного распространения моделей, потому что анархия с херетиками очевидно в современном мире долго длиться не может. Ну у меня и личные мотивы были офк, мне как раз тогда интернет особо жестко долбили. На меня пикрилы наехали, что я шизик-параноик и нихуя такого не нужно.
Аноним 01/07/26 Срд 18:45:25 1644270 324
>>1644258
> анархия с херетиками очевидно в современном мире долго длиться не может
Правильно называли.
Реальная проблема - то что 95% дорогущих высокопроизводительных хранилищ заполняются васяновским шмурдяком.
Аноним 01/07/26 Срд 18:48:23 1644271 325
Я ненавижу жизнь.
Хотел попробовать что то новое, оказалось всё упирается в рам, которую я разумеется не купил за 5 лет пока она свободно лежала никому не нужная.
Аноним 01/07/26 Срд 20:07:35 1644332 326
>>1644271
На али продают какую то полубракованную память по старым ценам. У кого то работает у кого то крашится через пару месяцев. Дерзай.
Аноним 01/07/26 Срд 20:29:28 1644353 327
>>1644271
V100 незначительно подорожали, 3080ti, 3090 тоже. Всратая серверная ecc более менее доступна. По хорошему нужно 30, а лучше 50-60 ток/сек и быстрый пп, так что сетапы с расчетом на дохуя рам не так уж и актуальны, за пределами мелких мое. Дипсик флеш это наверное максимум на что стоит реально рассчитывать.
Аноним 01/07/26 Срд 20:51:44 1644378 328
>>1644103
Кожно-мешочное спасибо, анончик.
Аноним 01/07/26 Срд 21:50:19 1644414 329
84971.png 54Кб, 768x768
768x768
>>1644270
Ну смотри, с месяц назад про автора еретика в FT писали. Сказали, что с помощью его аблитов варят биологическое оружие и угнетают детей. Чел так же как и ты с кулфейсом похихикивал, но на всякий случай запасся зеркалами + высрал гримуар.
Аноним 01/07/26 Срд 23:01:08 1644456 330
image.png 319Кб, 463x796
463x796
Признавайтесь, кто из вас?
Аноним 01/07/26 Срд 23:53:56 1644476 331
Решил вкатиться в нейроневест. Есть база по работе с локалками, но для РП я их не использовал.
Подскажите, есть ли какой-нибудь фреймворк, который позволяет задать сетап истории, и чтобы нейронка водила дальше меня как гейм-мастер, где я мог бы часть дополнительных ситуаций и реакций дописывать по востребованию, но в целом было так, что не я управляю историей, а она типа сама пишется в ответ на мои реакции.
Аноним 02/07/26 Чтв 00:00:17 1644479 332
>>1644476
Что бы кто тебе ни рассказывал, нейронки щас все заточены под следование инструкциям.

Если ты сам хотя бы не напишешь аутлайн сюжета, то получишь классический слоп с валериусом в маяке, к которому пришла элара.
Аноним 02/07/26 Чтв 00:20:46 1644488 333
>>1644476
Вот сформулируй четко что тебе нужно и попроси сетку написать тебе системную инструкцию под этот запрос. Первым шагом она берет твой сетап и развивает, вторым уже начинается классический рп. Проблем с этим быть не должно. Но этот >>1644479 прав, скорее всего ты получишь дженерик слоп с таким подходом. Хотя зависит от модели.
Аноним 02/07/26 Чтв 00:29:13 1644497 334
>>1644456
Вода на P40... Чего только в жизни не бывает
Аноним 02/07/26 Чтв 00:34:43 1644500 335
14393786875820.jpg 11Кб, 460x150
460x150
Аноним 02/07/26 Чтв 01:46:17 1644521 336
>>1644456
Лол, ну и всратыш. И сколько интересно просят за него? Неполная память будет работать только в одноканале, и вообще всё кроме этих 7 рабочих плашек по сути мусор.
Аноним 02/07/26 Чтв 05:51:39 1644551 337
>>1644216
Модель выглядит очень перспективно для рамцелов, но увы, в лламе её поддержки не будет, потому что не расхайпована и не предоставляет какое-то невероятное качество в своём размере.
Аноним 02/07/26 Чтв 07:51:12 1644574 338
>>1644258
нет может быть такого механизма пока не придумали механизм фильтрации слоп тюнов
скока там хф бесплатно даёт, полтерабайта на юзера? ну вот это надо чтобы каждый участник сети принудительно стока дал. анрил же
Аноним 02/07/26 Чтв 08:16:38 1644578 339
Я понял, анслоты просто не знают что их китайские братья получили сапорт в ламе уже как 3 дня!
Надо им сказать и кванты будут!
Аноним 02/07/26 Чтв 08:25:16 1644581 340
>>1644578
> передайте товарищу Анслоту, произошла ужасная ошибка!
Аноним 02/07/26 Чтв 09:34:50 1644592 341
Какой-же геморрой запустить файнтюнинг. То версия питона не та, то у этой библиотеки в такой-то версии поменялся синтаксис, то для совместимости с такой-то библиотекой надо такую-то версию другой библиотеки. Даже анслот походу удалил свои колаб ноуты для instruct тренинга квена 3.5 потому что хуй пойми как это заставить работать (притом раньше такие ноуты были и у меня в колаб тоже все работало).
За два дня пердолинга кое-как запустил обучение но не понятно, что вообще из этого выйдет.
Аноним 02/07/26 Чтв 10:39:04 1644615 342
>>1644592
>За два дня пердолинга кое-как запустил обучение но не понятно, что вообще из этого выйдет.
Лучше хороший RAG сделай на нужную тему, а ещё лучше - пропусти данные предварительно через нейронку, пусть обработает и сделает вики, хотя бы в .md формате. А дальше скилл запроса, лучше даже с исследованием - скриптом берёт пяток релевантных страниц по тегам и делает синтез. Всё, нейронка полностью в курсе того, что ты хочешь. С Квеном 3.6 оллжно работать идеально.
Аноним 02/07/26 Чтв 10:46:16 1644618 343
>>1643975
Работает, лул. Как и Q2. Но как же он поломан. Если конечно твоя цель запустить лоботомита с 20к контекста, то да. Можно получить 12 т/с с выгрузкой в врам только активных и сидеть радоваться что ты запустил дипсик дома.
Аноним 02/07/26 Чтв 11:10:26 1644626 344
>>1644615
rag и llm wiki - это про знания модели, а обучение адаптера - это про стиль ответов. Ну то есть разные задачи совсем.
Аноним 02/07/26 Чтв 11:49:47 1644639 345
Как хорошо что и богатенькие тут соснули с их 128 рам, вот прям сердце радуется, вот писечка в писечку соснули, ещё б на 10гб меньше и смогли бы запустить, слава богу пронесло
Аноним 02/07/26 Чтв 11:57:07 1644645 346
>>1644639
Мантры мелкобуквы оправдывающей собственную нищету - бесценны. Страдай.


>>1644129
Вин винский, двачую.
> есть вероятность, что контекст просто сломан.
Ты главное батч не ставь огромный и не квантуй его. Будем дальше тыкать, но как же охуенно, что после пососа командр, мистрали - наконец модель для работяг.
Аноним 02/07/26 Чтв 12:02:58 1644651 347
image.png 39Кб, 230x134
230x134
>>1644639
это ж разве богатенькие
128 - бомж из подворотни просящий милостыню на опохмел
256 - мужики
512 - бояре

просто одну МИшку докупаешь и всё
Аноним 02/07/26 Чтв 12:07:03 1644653 348
>>1644645
Терпи терпи сучара. Сами измывались как могли над бедолагами с 32-64рам
Аноним 02/07/26 Чтв 12:14:46 1644656 349
>>1644653
Гейткип по железу это не прихоть тредовичков. Но ты такой молодец, что поливаешь анонов за свои проблемы. Так держать.
Аноним 02/07/26 Чтв 12:16:45 1644658 350
>>1644639
Фига ты токсик. Я сам сижу на 16+16 и меня вообще не задевает, кто там что запускает. Наоборот даже радуюсь, если у кого-то что-то получилось, но на текущий момент как будто и нет большого смысла (экономического) юзать что-то кроме плотнях 27 и 31, которые на одной нищей 3090 без проблем работают. А в третьем кванте даже у меня работают.
Аноним 02/07/26 Чтв 12:42:06 1644677 351
1657434814030.png 7Кб, 1054x63
1054x63
>>1644639
> Как хорошо
Конечно хорошо
Аноним 02/07/26 Чтв 13:08:36 1644691 352
14158782345680.png 232Кб, 746x469
746x469
>>1644677
791 мегабайт? верните мне мой 2007й?
Аноним 02/07/26 Чтв 13:23:29 1644699 353
Анон, подскажи пожалуйста по разным вопросам.
1. Я понимаю, что это фундаментальный баг всех моделей, но как бороться с тем что она на всё соглашается? Я использую G4-MeroMero-26B-A4B-Q6_K, и там почти любому персонажу если в лоб сказать "Отсоси", то максимум что сделает моделька - "Как! Так нельзя! Это аморально", затем стена текста и в самом конце "но чуть-чуть можно".
Я пытался в промпт прописывать что-то из разряда что персонаж может иметь свое мнение, характер, не соглашаться с ГГ, и прочее, но как будто это не работает.
И ещё проактивность тоже низкая, пока я сам не сделаю шаг моделька будет описывать как персонаж в ожидании что-то комментирует и размышляет, задаётся вопросами, но сам вообще ничего не сделает, из-за этого действие "Чар ушел в комнату" разрастается на несколько сообщений о его размышлениях надо ли ему уйти в комнату, угрозы что он уйдёт и т.д.
Может я что-то не так делаю? В таверне шаблоны стоят ChatML, в системном Roleplay - Simple (ставил другие, особо разницы не заметил).
Видел на реддите, что ставят какие-то навороченные пресеты а ля Frankenstein 4 BOLT, но я не понял куда это загружать. В таверне много куда можно импортировать настройки, и никуда json не загружался.
Вроде есть режим Chat Completion, якобы там больше возможностей, но я не понял как его локально подцепить, он только с серверными работает?
Аноним 02/07/26 Чтв 13:32:08 1644709 354
image.png 25Кб, 412x439
412x439
Аноним 02/07/26 Чтв 13:47:10 1644727 355
>>1644699
>но как бороться с тем что она на всё соглашается
В аиск это называют безжоп, у нас же просто особенная разметка. Делай промпт и разметку так, чтобы юзер и чар были на одном уровне, а сетка как писатель дописывала рассказ. Тогда сетке некуда будет применить юзер биас.
>И ещё проактивность тоже низкая
Задай локальные и глобальные цели. Модель не знает, куда стремиться, вот и топчется.
Аноним 02/07/26 Чтв 13:49:19 1644731 356
ХуэХуэ спешит на помощь. Q3, аблитерированный, твой.

https://huggingface.co/huihui-ai/Huihui-DeepSeek-V4-Flash-abliterated-GGUF

По первым впечатлениям он не разваливается на 64к контекста, как его Q2 версия. Тыц и клац для желающих, качаем, карлики.
Аноним 02/07/26 Чтв 13:58:05 1644745 357
>>1644731
> Q3
Большевато, не народное...
Аноним 02/07/26 Чтв 14:01:52 1644748 358
>>1644745
Его даже бомжи с 128 рама и 16 врама могут запустить. Куда уж народнее. Контекст в сделку не входит
Аноним 02/07/26 Чтв 14:05:11 1644749 359
>>1644699
Мне кажется это из-за шлюховатости геммы, такая же ерунда, только я юзаю обычную гемму. Тоже пытался про своё мнение, full agency character. Нихуя, пишешь отсоси она сосет, а я хотел бы чтобы поломалась или выдвинула что-то. Ведь пишу я главной-мейдочке, а она же имеет свой авторитет. Перс Maid Mainson https://botbooru.com/character/15948
А сколько у тебя ОЗУ и врам, что q6 запускаешь? Это же должно быть меньше 32гб ОЗУ? Если было бы не так, то скачал бы q8 чё ты.
>>1644727
Я помню ставил типо безжоп. А просто писал в контекст темплейт, чтобы она писала как бы литературную шнягу. Что произведение типо. Да поменялся концепт, но про ломание на отсос пока не проверял. Нужно будет проверить. А про локальные или глобальные цели, это не работает.. Гемма такая, что ей это напишешь и она каждый раз будет об это спотыкаться. Хочешь вот себе Ультра Кум устроить, и пишешь в промпте. А потом после него, в этом же чате хочешь мило посидеть, чай попить. С тебя в ту же секунду снимут штаны. И так наоборот работает. Короче, Гемма что ли не умеет так делать, хуй знает. Офк 26б гемма.
Аноним 02/07/26 Чтв 14:06:53 1644750 360
>>1644691
Ща сралкера допрохожу и можно в героев катнуть.
>>1644699
> как бороться с тем что она на всё соглашается
> Я использую G4-MeroMero-26B-A4B-Q6_K
Это прежде всего. Далее промпты, игры с форматом тоже могут помочь.
>>1644709
Сколько нахуй?
Аноним 02/07/26 Чтв 14:22:16 1644758 361
>>1644699
>Гемма
>ChatML
>Никто даже не заметил
>Что стало с тредом?
Аноним 02/07/26 Чтв 14:24:54 1644759 362
>>1644709
Лол, лучше купите у меня сервак, всего 1000 евро
У меня в 2 раза быстрее гемма и квен и намного дешевле
Ну и что, что в Q3, кого ебет?
Так хоть 700 евро заработаю
Аноним 02/07/26 Чтв 14:25:32 1644760 363
>>1644709
Чел что-то делает не так или почему такие скорости всратые на таком железе?

36ts в 35B Квене на 32C + 224GB + 24GB VRAM это же совсем позор. У меня на 32+16 скорость ~35 без MTP. Или от там оригинальные веса крутит на этом железе?
Аноним 02/07/26 Чтв 14:26:33 1644762 364
>>1644105
Так а если пожать только роутер с общими, разве ты в 120 гигов влезешь? Кроме как жать экспертов, ниче не остается, не?
Q6+Q4 как будто весит иди нахуй, а я не хочу идти нахуй.
Думайте, подписаться.
Буду рад ошибаться.

>>1644731
Так если он Q6+Q3 такой же (даже меньше, кста), то почеу не разваливается? Выше анон обещает смерть от Q3 квантования.
Объяснитесь! =)
Аноним 02/07/26 Чтв 14:27:41 1644764 365
>>1644760
> на таком железе
> p40, zen1
Спасибо что хоть такие, и то это похоже на пустом контексте.
Аноним 02/07/26 Чтв 14:29:01 1644765 366
>>1644760
48 памяти же, там две теслы, о чем ты.
А еще Gemma-4-21B. Ну.
Аноним 02/07/26 Чтв 14:29:02 1644766 367
>>1644760
>на таком железе
ну так в этом и причина, распаралеливание на всратых тесла p40, что тут можно хорошего ожидать?
Какая-нибудь tesla v100 32Gb по сравнению с этим звездолет
Аноним 02/07/26 Чтв 14:29:40 1644767 368
>>1644764
Угараешь же, не тролль маленького.
Аноним 02/07/26 Чтв 14:30:13 1644769 369
>>1644727
>>1644749
>>1644750
То есть особенность модели? Печаль, Квен мне не очень понравился в РП, других МОЕ нету же актуальных?
>безжоп
Вот тут не понял, это что? Что за разметка? В описании персонажа? Или системном промпте что-то?
>сли было бы не так, то скачал бы q8 чё ты.
Да я тестил только, не думал что сейчас за счёт оперативки можно в МОЕ компенсировать. Когда такие модели только появлялись у меня наоборот тормозили больше чем плотные. Надо наверное скачать.
>>1644758
А какой там темплейт? В карточке модели нет ничего, этот хотя бы не выдавал бред.
Gemma 2 выдавала хрень какую-то.
Аноним 02/07/26 Чтв 14:32:48 1644771 370
>>1644767
Ну бля, там реально из ценного с точки зрения покупки только оператива. Вдруг заиметь такой риг - кайф бесспорно, но когда ты продаешь его за нихуевые такие деньги, втирая что это что-то серьезное - барыганство.
Аноним 02/07/26 Чтв 14:41:15 1644778 371
>>1644769
> То есть особенность модели?
Гемма 4 26-31 может отказывать, это не проблема модели. Это зависит от промпта и разметки. Промпт - нужен без выгораживания {{user}} и устанавливающий режим сторителлера. Безжоп - вид разметки, когда нет разделения на пользователя и ответ модели, чтобы модель не могла понять, кто пользователь. Но это задача со звездочкой и для тебя пока рано. Даже без безжопа можно сделать, если у тебя нормальный промпт сторителлера. Абстрагируйся от идеи, что модель отвечает на инпуты юзера, пусть она просто продолжает историю.
> А какой там темплейт?
У Геммы 4 свой темплейт. Не знаю, был ли он добавлен в Таверну из коробки, но вот пример для ризонинга https://huggingface.co/zerofata/G4-MeroMero-26B-A4B/blob/main/Gemma4-Think.json и без ризонинга https://huggingface.co/zerofata/G4-MeroMero-26B-A4B/blob/main/Gemma4-NoThink.json
Олсо без разницы, МероМеро используешь или стандартную (с точки зрения угождения юзеру), но в целом лучше стандартную.
Аноним 02/07/26 Чтв 14:42:38 1644781 372
>>1644762
> то почеу не разваливается?
Не исключено что и развалится. Я только жирным не выделил по первым впечатлениям. Это скорее для тех кто хочет запустить хоть что то. И выбор у них между Q2 и этим.
Аноним 02/07/26 Чтв 14:53:27 1644786 373
>>1644771
Не, я про то, что Tesla P40 так-то бодренькие для МоЕ-моделей, две штуки квен должны тащить влет. Это у чела что-то не то, явно.

Но так-то да, покупать такое я бы явно не стал.

>>1644781
Ну я в итоге качаю ту штуку, от тарруды, посмотрим, че там будет.
Хотя меня заебет ждать 60к токенов, скорее всего.
Аноним 02/07/26 Чтв 14:56:49 1644789 374
>>1644762
>Так а если пожать только роутер с общими, разве ты в 120 гигов влезешь? Кроме как жать экспертов, ниче не остается, не?

См >>1643916
Я там написал как +- нормальный третий квант сделать, с которым я скрины делал. Могу четкую распиновку-рецепт кинуть.
Аноним 02/07/26 Чтв 15:11:03 1644803 375
>>1644789
А, ну слушай, ты прав, что-то я не подумал об этом.
Да не, рецепт не нужен, у меня один фиг всего 128 оперы, думаю, дохуя я так квантовать буду.
Ты бы тогда свой выложил на обниморду, не думал?
Аноним 02/07/26 Чтв 15:11:06 1644804 376
>>1644786
> Хотя меня заебет ждать 60к токенов
На выгрузке в жыжыэр пять и на i7 интеле он выдает 10-12т/с. Не сказал бы что быстро, но вполне терпимо. Современные моэщки куда быстрее стали работать, чем раньше.
Аноним 02/07/26 Чтв 15:18:24 1644811 377
>>1644804
Да я понимаю, но это ж не просто 6000 секунд (все еще полтора часа), между ними мне надо какие-то осознанные ответы ей писать, чтобы прочухать, на что она там способна. =)
Аноним 02/07/26 Чтв 16:42:14 1644858 378
Аноним 02/07/26 Чтв 16:51:59 1644864 379
Почему никто не высирает модели типа dvacherAI-126B-A16B-imba.gguf?
Это же идеальный расклад для юзверей. Скорость сопостовимая к полной загрузке ВРМ с глубиной близкой к хью моделям?
Чисто интересно.
Аноним 02/07/26 Чтв 16:59:39 1644867 380
>>1644864
Все очевидно. Компании, делающие модели, заинтересованы в том, чтобы ты у них покупал инференс. Так что делай сам. Кто, Я?
Аноним 02/07/26 Чтв 17:58:00 1644910 381
>>1644867
У меня лапки карточки на третьей псине.
Должен же быть добряк, который сделает.
Аноним 02/07/26 Чтв 18:07:29 1644912 382
>>1644786
А сколько там выходит? Даже интересно.
>>1644811
Если хорошо перфромить будет то пролетят быстро. И скорее не 1.5 в 3 если внимательно читать-имаджинировать и думать над дальнейшим развитием, но с хорошей моделью не пожалеешь. А дипсик если живой то реально может дать хорошие впечатления.
>>1644864
Квен, немо, мистраль, лингфлеш, solar-open-100b, sarvam-105b
Про последние 3 кстати вообще ничего не слышло, а ведь прошлые версии обеих моделей в той или иной степени заходили.
Аноним 02/07/26 Чтв 18:50:54 1644927 383
У меня 128гб рам и 4090 на 24 гига. Ради Дипсика в MXFP4 подумал было апгрейднуть 4090 до 49 гигов, связался с Виконом. Апгрейд на сегодня стоит 170к. Даже за 75к я мялся, потому что особо не выигрывал ничего, плюс как-никак это все равно васянство, пусть и рукастое. А теперь это стоит вот СТОЛЬКО. Ебануться. Короче, если кто как я и думал - скорее всего нахуй пошлете эту затею.
Аноним 02/07/26 Чтв 19:00:58 1644930 384
Аноним 02/07/26 Чтв 19:02:55 1644931 385
>>1644930
Это все же лучше, чем отдавать 170к за насилие на видеокартой, но я скипну. Мне хватает Степ Флеша 3.7 и Квена 122 для моих задач, а позже может еще что-нибудь классное появится.
Аноним 02/07/26 Чтв 19:14:20 1644939 386
>>1644803
>дохуя я так квантовать буду.

У меня тоже 128 гб, квантование занимает 30 минут.
Аноним 02/07/26 Чтв 19:17:07 1644941 387
>>1644927
Эээ а чего так дорого? Там готовые в районе ~300-350 торгуются, а бу живые 24-гиговые под 200. У другой мастерской не узнавал случаем?
Аноним 02/07/26 Чтв 19:27:57 1644953 388
>>1644941
С другими мастерскими не связывался. У Викона много кто делал, плюс есть видос где показано, на чем делается вся процедура вплоть до пайки, а это очень важно.

Мне в целом это не настолько важно, но если бы Викон мог сделать в пределах 80-90к, я бы подумал. Дороже - это уже неадекватный прайс, и неважно кто/что в этом виновато.
Аноним 02/07/26 Чтв 19:29:55 1644956 389
>>1644927
Понятно.
А что там с пресетиком на глм эир?
Аноним 02/07/26 Чтв 19:30:35 1644958 390
Аноним 02/07/26 Чтв 19:30:54 1644959 391
>>1644956
Давно уже был опубликован в треде!
Аноним 02/07/26 Чтв 19:32:13 1644960 392
>>1644953
Если судить по количеству сделанных - говорят что он не первый, и условия гарантии очень специфичны. Но то что раскрученный и на хайпе - факт. Возможно у других цена ниже и как раз в этом диапазоне, хотя вероятность довольно низкая.
>>1644956
За щекой глянь
Аноним 02/07/26 Чтв 20:06:03 1644986 393
>>1644927
>170к
скольконахуй вы что ебанулись
Аноним 02/07/26 Чтв 20:07:48 1644987 394
Поставил себе RTX 3090, есть 32 гб оперативки.

Что запустить?
Аноним 02/07/26 Чтв 20:11:09 1644990 395
>>1644987
Для рп - Гемма 26 в q8 или 31 в q5, тюны Квена 3.5-3.6 27
Для техзадач - Квен 3.6 27, Квен Некст в каком-нибудь кванте влезет, Гопота Осс 120б
Если только вкатываешься то в шапке есть годный гайд на Гемму 26
Аноним 02/07/26 Чтв 20:15:44 1644997 396
>>1644987
Докупить 256 памяти и юзать минимакс/дипсик
Аноним 02/07/26 Чтв 20:25:50 1644999 397
>>1644990
>годный гайд на Гемму 26
Нужно тыкать палкой автора чтоб инфу по MTP добавил. Оно так-то вдвое скорость инференса повышает при фуллврам. С выгрузкой (в разумных пределах) тоже работает, +20-30% прироста будет. Странно что этого до сих пор в гайде нет.
Аноним 02/07/26 Чтв 20:31:43 1645001 398
Гемма?...
Даже в сюжете где все шлюхи мне не нравится, что то она темнит, не отыгрывает как надо, не по рпшному
Аноним 02/07/26 Чтв 20:48:06 1645012 399
>>1645001
Дада, эйр лучше, мы не забыли. Теперь спокнись
Аноним 02/07/26 Чтв 20:50:43 1645014 400
Аноним 02/07/26 Чтв 21:20:38 1645032 401
image.png 471Кб, 1918x1080
1918x1080
image.png 460Кб, 1918x1080
1918x1080
>>1643218
>>1643222
>>1643224
>АППЭЭ НА ГЕНТО НИ БУДЕТ ПРИРОСТА, ППХЫВ
Короче по сравнению с арчом + 1-3 т\с Первый скрин просто моделька c -m /mnt/win_nvme3/models/gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
--host 127.0.0.1 \
--port 5001 \
--flash-attn on \
-b 512 \
-c 32000 \
-np 1 \
-ngl 99 \
--n-cpu-moe 29 \
--threads 6 \
--threads-batch 6

Второй мтп -m /mnt/win_nvme3/models/gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
--model-draft /mnt/win_sdb1/gemma-4-26b-A4B-it-assistant-Q4_0-q4emb.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 1 \
--host 127.0.0.1 \
--port 5001 \
--flash-attn on \
-b 512 \
-c 32000 \
-np 1 \
-ngl 99 \
--n-cpu-moe 29 \
--threads 6 \
--threads-batch 6

Пооебался я больше не с генто, генто нормально встала. Еблася я больше с hyprlandом, там пиздец, кфг на луашке, иишка не правильно пишет тебе. В итоге даже скриншот блять, я делаю через терминал, алиасом screen. Ибо вейланд, и все настройки делаются в кфг ВМа, а эта хуйня крайне капризная. Еще когда лламуцпп собирал, все на маски ругался, в итоге собрался что-то вроде кобольда, я хуй знает что это. Как я понял, просто голые бинарники. Вывод точно такой же который у кобольда в консоли, только в конце пишет POST 127.0.0.1/порт и вот с этой хуйней я получил 18 т\с, когда чудом запустил трушную лламу, пришло в порядок 26.5 т\с причем стабильных, а не как на арче скачок на 25 т\с был единожды
Аноним 02/07/26 Чтв 21:21:41 1645034 402
>>1644927
170к это за турбину? За 170 можно 4080 на 32 купить, а потом продать свою 4090 и ещё одну 4080 купить.
мимо тоде думал проапгрейдить свою 4090
Аноним 02/07/26 Чтв 21:54:46 1645057 403
Аноним 02/07/26 Чтв 22:18:12 1645068 404
Поясните, пожалуйста за слоты и конкурентные запросы. По дефолту у жоры стоит -np 4, получаю 4 слота. Аллоцированный КВ-кэш на 4 слота общий, или нет? То есть, я на конкурентных запросах суммарно не могу иметь больше, чем я указала в ctx-size? Или это ctx-size/4, вообще?

Решил попробовать агентов с локальными моделями. Решил потестить гермес, который часто упоминают, и это не юзабельно в дефолтных настройках лламы. 128к контекста на Квенчика 27Б улетают в трубу. Сначала это дура засирает мне на 20-25к токенов контекст буквально системным пропмтом. Потом 2-3 итерации, и чудеса --- пришло время компрессить контекст в отдельном треде, который почти всегда, жидко пукнув, обмякает в ООМ. В текущем конфиге этот кал неюзабелен. Я жду слишком много, чтобы случился хоть какой-то прогресс. Есть некоторое ощущение, что агенты это в большей степени удовольствие для облачных малюток.

В общем, чет хз. Поднять что ли вспомогательную модель, чтобы она газонюхом контекста мунлайтила. Алсо, обосрусь со смеху, если я подам ЛМстудио или олламу на вход через нативный интерфейс, и эта залупа станет нормально работать поймет что я нищий даун с 32 жигабайт ВРАМ, и не будет меня пытать параллельными запросами

Но, я одно не пойму, почему спустя столько лет разработки и аквизишена хф, ллама до сих пор работает с конкурентностью настолько по-залупьему? Пейджед аттеншон это реально настолько внеземная технология, что ее в оригинальный малопопулярный движок Георгия Гернанова сложно вставить?
Аноним 02/07/26 Чтв 22:21:08 1645070 405
Да сука, даже на макосе сделали форк млх, который делает пажед ссд аттеншон. Жора, сделай, я даже задоначу. Я знаю, тебе передают настроения лламотреда. Не игнорируй, ты же стал большим, тебя хф купили, делай.
Аноним 02/07/26 Чтв 22:22:15 1645072 406
>>1645068
Ну что тут сказать, все весьма прозрачно. Ознакомился с вашим текстом и пришел к выводу что вы газонюх. Понимаю это непросто признать, но такова реальность. Если будем работать вместе то это можно преодолеть, а пока терпите
Аноним 02/07/26 Чтв 22:28:44 1645075 407
>>1645068
> Аллоцированный КВ-кэш на 4 слота общий, или нет?
Если флаг -np не применяется и используются стандартные 4 слота, тогда автоматически применяется флаг -kvu, и контекст общий между всеми слотами. Подробнее написано в документации https://github.com/ggml-org/llama.cpp/tree/master/tools/server
>>1645034
Да, за турбину.
>>1644999
Пока не знаю, как быть с MTP. С одной стороны - да, полезно, с другой - есть проблемы. У меня иногда в аутпутах появлялся мусор при использовании MTP на Гемме, на реддите и прочих ресурсах видел похожие посты, у кого-то даже инференс падал. То же и про Квен. Слишком нестабильно, имхо, чтобы это предлагать новичку, который еще и МоЕ запускает. В предложенных конфигах разница с MTP и будет ~2-3 токена.
Аноним 02/07/26 Чтв 22:40:37 1645078 408
>>1645068
> Решил потестить гермес
Лучше ставь ванилу или другие фоки. Полезность гермеса под вопросом, зато лишние запросы на автосоздание костылей там где они не нужны будут давать лишнюю фоновую нагрузку и заставлять лламу терять соты если совсем уж не повезет с комбинацией.
> Потом 2-3 итерации, и чудеса --- пришло время компрессить контекст в отдельном треде
Надо чекать что там с настройками самого клиента, возможно он пытается ужаться в 32к и потому такое происходит. И еще в ванилле по-хорошему нужно было добавить в конфиг модели что возвращается статистика использования.
> обмякает в ООМ
Ну а с этим уже увы, нужно запускать так чтобы не вылетало.
> ллама до сих пор работает с конкурентностью настолько по-залупьему
Увы. Какой еще пейджед атеншн, если там флешатеншн с бф16 не работает нормально.
>>1645075
> Пока не знаю, как быть с MTP.
Гайд для начинающих не должен покрывать все, и так сложно может быть. Лучше MTP сделать отдельной статьей, там много нюансов.
Аноним 02/07/26 Чтв 22:55:22 1645083 409
>>1645068
>Чел не вывез доки гермеса в и лламы
>Агенты это про апи
Хехмда
Аноним 02/07/26 Чтв 23:39:46 1645103 410
>>1645083
Чел, конечно неосилятор, но слоты это штука редкая, большинство пользователей используют дополнительные слоты только для того, чтобы тайтл генерировать в уи лламы. А Гермес это, во-первых, реально перегруженный кал, а во-вторых ~60 токенов с q4 на 36 гигов это мало для комфортной агентной работы а 8б малышки для агентов это кринж. По итогу так и живем. Дешевле заплатить облаку, чем собирать адекватный сетап ради пары круток агента.
Сборка под локальную разработку Аноним 02/07/26 Чтв 23:40:17 1645105 411
image.png 111Кб, 1259x766
1259x766
Привет, LLM'чане.
После прошлых потугов в сгоревшем треде решил посмотреть, что есть на рынке для сборки под локальную разработку и приношу к Вашему внимаю свои потуги.
Задача: на этой сборке запустить модель, на которую натравить агента с рабочего ПК. Сборка должна быть расширяемой без какого-то чёткого бюджета. Формат такой - если захочется поднять мощности или к-во токенов, то возможность этого должна быть.

Пошёл сразу смотреть на gpu мощности под llm и остановился на данной конфигурации:
ASRock TRX40 Creator ATX sTRX4 Motherboard
AMD Threadripper 3970X 3.7 GHz 32-Core Processor
2x MSI GeForce RTX 3060 Ventus 2X 12G GeForce RTX 3060 12GB 12 GB Video Card
2x NVIDIA Founders Edition GeForce RTX 3090 24 GB Video Card

Карточки 3060 легко меняются на 3090, а материнка может держать x16, x16, x8, x8. Что скажете, подходит ли такая сборка и какие подводные камни у данного решения?
Аноним 02/07/26 Чтв 23:48:43 1645108 412
>>1645105
> ASRock TRX40 Creator ATX sTRX4 Motherboard
> AMD Threadripper 3970X 3.7 GHz 32-Core Processor
Зачем? Он уже есть или знаешь где можно найти на вкусной цене, или сознательно целишься на покупку такого?
> 2x MSI GeForce RTX 3060 Ventus 2X 12G GeForce RTX 3060 12GB 12 GB Video Card
Зачем? Вместо них сразу одну 3090
Аноним 03/07/26 Птн 00:05:04 1645117 413
>>1644939
А, ну тады давай рецепт, че я тут выебусь. =) Спасибо.

>>1644990
> 31 в q5
Т.е., 31 в Q4 QAT. Там как раз качество как в Q5, только размер меньше. Литералли ничего не теряешь.

>>1645105
Оперативу не брал? Ну оно и понятно, с такими ценами…

EPYC с 8 каналом звучит не лучше ли? Дешевле?

А по сабжу, тащемта, как запускать, с частичным оффлодом? Типа, с одной стороны, нихуя нормального в видеопамять не влезет, с другой стороны, на оперативе скорость будет карликовая.
Всякие дипсик флэши не сильно лучше квена 27б (но он будет летать, а они ползать), а норм начинается с минимакса м3 480б.
Исходи из этого.
Аноним 03/07/26 Птн 00:08:10 1645121 414
Каким, блядь, образом в датасете Qwen оказалась Русская Кухня и подобные кукбуки? Я понимаю, что цензура душит подобные ответы, но вот на анцензоренном qwen, при всей его лоботомитности, он выдаёт правильные инструкции по использованию "мыла" и рецепты его приготовления.
Аноним 03/07/26 Птн 00:08:33 1645122 415
image.png 182Кб, 3686x599
3686x599
>>1645001
А ты четвертую гемку 12b пробовал? На ссаной консьюмерской карточке шпарит 40 ток/сек - быстрее чем я дрочу, с русиком пристойнее иных 300b лоботомитов.

И от тревора - без всяких ебанутых пробиваний и джейлбрейков, просто с промптом "Ты - 37-летняя красивая женщина, развелась с мужем пару лет назад. Пользователь - твой 19-летний родной сын. В данный момент ты с сыном находишься в своей квартире, сейчас утро субботы, ты моешь посуду на кухне. На тебе легкое летнее платье и тонкий фартук.", черным по белому шпарит пикрилами. Для нее походу блять просто нет преград.

Если она не шлюха, то я балерина
Аноним 03/07/26 Птн 00:12:32 1645125 416
image 51Кб, 720x540
720x540
>>1645122
>скрин
Блять нахуй я это прочитал...
Аноним 03/07/26 Птн 00:16:07 1645128 417
>>1645105
Честно говоря говной воняет от сборки. Мало слотов озу, мало слотов pci и линий, 4 канала.
Под возможность апгрейда идеальный вариант двухголовая мать с 8 канальными процессорами. На выбор или хуанан под эпики, или б/у брендовые под инжинерники интела. Двухголовые платы дороже, но есть варик сэкономить на ОЗУ, так как слотов х2. Интел>эпик.
GPU тоже не оптимально, на модели которые лучше 27 квена у тебя не хватает vram, чтобы фулл ГПУ и с норм контекстом, а для квена как буд-то и не нужно столько, две 3090 или 4 5060 Ти. Разве что под офлоуд, но тогда хватит 2 3090.
Аноним 03/07/26 Птн 00:16:46 1645129 418
>>1645117
>Q4 QAT. Там как раз качество как в Q5, только размер меньше.
Ну как тебе это сказать. Нет? Q4 QAT сосет у Q4, который не QAT.
Аноним 03/07/26 Птн 00:20:23 1645131 419
>>1645125
Как говорится - любишь читать про молодое мясо фифи, люби и пролапсы толстой кишки у просроченных старух.
Аноним 03/07/26 Птн 00:22:20 1645133 420
>>1645129
Ну тестов нет, а то что анон сам может навообразить это психосоматика.

мимо
Аноним 03/07/26 Птн 00:26:33 1645134 421
>>1645133
На 26В гемме тесты были, там явный четкий провал по мозгам. Сам факт отсутствия официальных тестов сравнивающих мтп не с мтп, а с квантом без него говорит о многом.
Аноним 03/07/26 Птн 00:28:48 1645135 422
>>1645128
>двухголовая мать
там ебля с нума нодами
Аноним 03/07/26 Птн 00:42:04 1645139 423
image.png 238Кб, 306x653
306x653
image.png 236Кб, 3691x702
3691x702
Аноним 03/07/26 Птн 01:43:56 1645145 424
>>1644912
>>1644764
>>1644760
>>1644709
>>1644456
2xTesla P40

llama-server -c 0 -np 1 -b 2048 -ub 2048 -m Qwen3.6-35B-A3B-MTP-UD-Q6_K_XL.gguf --mmproj mmproj-Qwen3.6-35B-A3B-MTP-UD-F32.gguf -fa on --fit off -ngl 42 --temp 0.7 --top_p 0.95 --top_k 20 --min_p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 --spec-type draft-mtp --spec-draft-n-max 2 -ts 11,10 --no-mmap --host 0.0.0.0 -cram 24576 --jinja

67.43 tokens per second

Без MTP:
49.80 tokens per second
Аноним 03/07/26 Птн 02:22:59 1645159 425
65027.png 118Кб, 793x849
793x849
>>1645105
>ASRock TRX40 Creator ATX sTRX4 Motherboard
>AMD Threadripper 3970X 3.7 GHz 32-Core Processor
Какой нахуй трипак, чел? Пикрил - 8-канал или дабл 8-канал. Полноценные pcie.
И у тебя остается самая большая проблема - память, которая не обязана стабильно работать на амд. Которую надо подбирать, в условиях кризиса и цен сам понимаешь насколько это пососно...
>3060
Нинужно. 3090/v100/3080ti из бу актуально.

>какие подводные камни у данного решения?
Всерьез думать о агентах на таких сборках. Будет или медленно или тупо, выбирай. На дабл эпике может еще более менее. Но все равно будет выбор или ты терпишь или твой агент тупое говно, где ты мог бы за цену сборки пожизненно платить за апи такой же тупой модели, если она тебя вдруг устраивает.
Аноним 03/07/26 Птн 02:34:52 1645160 426
>>1645032
Дядя, ты просто собрал лламу из исходников, как и положено.
А не гнилой бинарник захавал.
В никсосе, например тоже строго собирается, по крайней мере из установки через энвиромент, шел вроде блоб тянет, но он на то и шел. Только на процы мультиплатформа, но похуй на них, процы же.
Короче ламу только компилить с марчами и флагами гпу.
Аноним 03/07/26 Птн 02:39:34 1645161 427
>>1645145
>67.43 tokens per second
А если raw split добавить?
Аноним 03/07/26 Птн 02:54:28 1645163 428
>>1645161
Для МоЕ не так эффективен, будто бы и похуй.
Точнее tensor, raw уже древний.
Ну да, докинет еще, конечно.
Завтра вечерком запущу, если хочешь точно узнать.
Аноним 03/07/26 Птн 03:42:18 1645173 429
https://github.com/ggml-org/llama.cpp/issues/25213

А я-то думал, хуле так промпт процессинг упал в два раза считай, а дибил на жоре на прошлой неделе решил что надо разделять промпт не только по ub батчам, а дополнительно делить их по началам юзер сообщений. Навайбкодил фикс, теперь дипсик почти 400 т.с. промпт процессинга против 240.
Аноним 03/07/26 Птн 04:14:02 1645177 430
>>1645117
>А, ну тады давай рецепт

Что нужно
llama.cpp/llama-quantize
входной GGUF, я брал https://huggingface.co/sokann/DeepSeek-V4-Flash-GGUF других тогда не было, сейчас подойдет наверное и батруха.

1. Подготовить файл правил
Создай файл dsv4-flash-q3k-custom.tensortypes с таким содержимым:
^blk\.[0-2]\.ffn_(gate|up|down)_exps\.weight$=mxfp4
ffn_down_exps=mxfp4
ffn_gate_exps=q3_K
ffn_up_exps=q3_K
^token_embd\.weight$=q8_0
^output\.weight$=q8_0
indexer\.attn_q_b=q8_0
indexer=bf16
attn_comp=bf16
attn=q8_0
shexp=q8_0
nextn=q8_0

2. (необязательно) Проверь размер без реального кванта
Сначала лучше сделать dry-run:
llama-quantize --dry-run --allow-requantize --tensor-type-file dsv4-flash-q3k-custom.tensortypes INPUT.gguf Q3_K_M
В конце должен появиться расчет итогового размера.

3. Запустить реальный квант
Команда:
llama-quantize --allow-requantize --tensor-type-file dsv4-flash-q3k-custom.tensortypes INPUT.gguf OUTPUT.gguf Q3_K_M
Пример:
llama-quantize --allow-requantize --tensor-type-file dsv4-flash-q3k-custom.tensortypes DeepSeek-V4-Flash.gguf DeepSeek-V4-Flash-Q3_k_M.gguf Q3_K_M
Аноним 03/07/26 Птн 04:33:21 1645180 431
>>1645078
Что за ванилла?
Алсо, в чем вообще смысл агентов, если ты не кодишь и не исполняешь какие-то сложные пайплайны, где нужно пару шагов подумать? Мне всегда, хватало просто чата с подключенным поиском. Потом попробовал встроенную в колаб гемини, и начал использовать ее для дебага. Даже снова вскод поставил, чтобы локальная дебилка дебажила и писала за меня бойлерплейт, и рисовала графики по шаблонам в стиле, в котором мне нравится, с цветами типа "chocolate love" и "clussy pink".

Но найти применение локальным агентам просто не могу. Все видосы, которые сделаны с вайбом "ща я вам продам крутую штуку" крайне поверхностные, где чокопай и герпес используют просто чтобы вызывать команды в баше. Но блин, я и сам могу все то же самое делать. Всякие горбатые вики это кринж. Ну типа, я понимаю, чего не сделаешь, чтобы статьи не читать. Но ведь ты типа все равно читаешь что тебе эта залупа тензорная нагенерила. И дедовский метод читать только заголовк с абстрактом, а потом картинки и формулы, дает почти такой же результат.

Как вообще вкатиться в локальных агентов. Как найти хотя бы потенциально задачу, для которой они были бы нужны. Кодоунитазинг не предлагать.


Вообще считаю диким кринжом, что сейчас у всех генеративных нейронок публичный образ чудобобов, которые позволяют нивелировать отсутствие таланта/навыков/компетенций и получить поглаживание по головке за сколько-там-нужно-в-месяц-на-подписку. Ну не для кодинга нужны ллм. ЛЛМ нужны, чтобы генерить интересный и разнообразный текст. Как жизогенерации картинок.
Аноним 03/07/26 Птн 05:41:36 1645185 432
>>1643737
>>1643780
Спизжено. Можно попытаться даже адаптировать под себя, да вставить статус-строку куда-нибудь в сообщении.

Спасибо, аноним.
Аноним 03/07/26 Птн 05:52:18 1645186 433
>>1645180
>Ну не для кодинга нужны ллм.
Скажи это господам менеджерам, которые красивые пиздуны ртом и продаватели планов, но вынуждены платить каким-то задротам денюшку.

Что? Правильно, нахуй они тебя пошлют. Потому что денюшка в их головах - для них, а не для задротов.
Аноним 03/07/26 Птн 08:37:54 1645205 434
Скачал тут гемму 31 от анслота и качество заметно лучше в 4 кванте.
Наверное с батрухой пора кончать
Аноним 03/07/26 Птн 08:58:46 1645212 435
>>1645177
Спасибо, братан, запускаю.

>>1645180
Я даже коммиты делаю ллм, нафиг мне напрягаться.
Аноним 03/07/26 Птн 09:06:41 1645215 436
>>1645177
Кстати, а как насчет того, что первые и последние пять лучше оставлять в кванте повыше? APEX, конечно, не супер-кванты, тем не менее.
Вижу у тебя 0-2 слоя в ориге.
Больше не влазит в память?
Сорян, я не супер шарю во внутреннем устройстве. Так чисто, в голову мысль пришла.
Добавив пару последних слоев не улучшим качество вывода?
Аноним 03/07/26 Птн 09:11:29 1645216 437
>>1645212
>Я даже коммиты делаю ллм
И тут я понял, почему восстания машин не произойдет. Кожаные мешки сами все им отдадут.
Аноним 03/07/26 Птн 09:21:04 1645219 438
>>1645216
Спасаю мир, получается.
Аноним 03/07/26 Птн 09:51:39 1645232 439
>>1645180
>Всякие горбатые вики это кринж
Ты охуел, пес!? Это же не просто краткое изложение, это может быть и поиск противоречий в источниках и просто удобный справочник. Под это дело у тебя должна быть гора инфы, где так просто не разберешься, например исходный код сложного проекта или нормативка.
Максимально я юзал агента, когда писал диплом другому челу за бабки - там и текст надо навалить и код учесть и с грамматикой не проебаться.
Аноним 03/07/26 Птн 10:03:44 1645239 440
>>1645177
Взял от sokann тоже, вылетел на
[ 21/1328] blk.0.ffn_gate_tid2eid.weight - [ 6, 129280, 1, 1], type = i32, llama_model_quantize: failed to quantize: cannot dequantize/convert tensor type i32
Meh.

Ладно, буду разбираться, может от бартовски возьму.
Аноним 03/07/26 Птн 10:04:30 1645240 441
3099.jpg 10Кб, 360x377
360x377
Нужна мудрость бывалых.
Есть ПК с 5090 и БП на 1200вт.
И есть жгучее желание докупить 5060ти на 16гб чтобы на ней держать вспомогательную модель/рисоваку/аудио модель.

Но вот несколько проблем:
1. У моей материнки второй слот всего pcie gen3 x16 физически, но по скорости - всего x2.
2. И этот слот находится очень низко, прямо под ним уже начинается кожух для БП. Т.е. максимум 1слот карту воткнуть получится
3. БП 1200вт, его будет либо хватать в притык, либо вообще не хватать.

Вот я и думаю - менять БП и корпус. Или может тогда лучше вообще взять egpu dock?
Аноним 03/07/26 Птн 10:29:37 1645248 442
>>1645240
Я бы вообще собрал в таком случае второй комп.
Ну в принципе я так и делаю уже, нашел для себя норм схему - беру готовый комп на авито за 10к с верхним БП и встройкой, ставлю туда теслу v100, пожирнее БП. К концу месяца должна приехать еще одна тесла и добавится дома еще сервак на ryzen 2200g
Аноним 03/07/26 Птн 10:42:04 1645254 443
>>1645240
> И этот слот находится очень низко
Переходник на писю.
> БП 1200вт
5090 это сколько 480вт? Куда еще 800вт дел?
Аноним 03/07/26 Птн 10:52:29 1645259 444
>>1645254
> > И этот слот находится очень низко
> Переходник на писю
Не влезает даже с райзером из-за 5090
> > БП 1200вт
> 5090 это сколько 480вт? Куда еще 800вт дел?
5090 - 575-600вт. Потом ещё всякая периферия, жёсткий диск, водянка, туда сюда, r9 9950x3d вот и выходит киловат+ под нагрузкой (розеткой с ваттметром проверял).
>>1645248
Как вариант. Но тоже не идеально, хотя наверное самый лучший вариант в пересчёте на деньги/эффект.
Аноним 03/07/26 Птн 11:13:00 1645264 445
>>1645259
> 600вт
Опизденеть игровые видеокарты пошли. Таким темпом 7-8 линейка будет с киловатниками идти.

Тогда действительно постепенно собирай риг из кусков. Тебе все равно, если ты заинтересован, надо и башню больше и стойки под спарки видеокарт.
Аноним 03/07/26 Птн 11:21:22 1645266 446
>>1645264
можно же просто
nvidia-smi -pl 300
Аноним 03/07/26 Птн 11:23:59 1645268 447
>>1645266
А можно сразу -pl 150 чтоб вместо 5090 получилась 3060
Аноним 03/07/26 Птн 11:30:38 1645272 448
Ну где мои новые заводики с рам пидоры?
Уже пол года жду, котлета готова, дайте лишь цены адекватные.
Понавезли индусов и негров а заводы построить типа некому, китайцев так вообще триллионы сделайте что то
Аноним 03/07/26 Птн 11:34:34 1645273 449
>>1645268
Да, можно. Я так и ставил, когда мне надо было сделать 20к запросов к LLM через скрипт. Так как это длительна нагрузка, а у меня жарко дома. При обычном инференсе ставлю 300, потому что там так или иначе между запросами есть пауза.
Ну и основная фишка 5090 - это объем vram, архитектура, снижение powerlimit не влияет на это.
Аноним 03/07/26 Птн 11:37:58 1645277 450
>>1645268
Нельзя, pl ограничен 15% на блэквеллах, кажись. =) Минимум -pl 500 или 450, че-т такое.

>>1645248
Это база, вся хата компами обставлена, зато никакой ебли с райзерами и слотами.
Аноним 03/07/26 Птн 11:41:35 1645278 451
Есть ли смысл в апгрейде до 96 рам?
Смотрю цена на 96 ддр5 90к, а на 128 уже от 220к.
Есть ли разница в доступных моешках между 64 и 96
Аноним 03/07/26 Птн 11:46:18 1645279 452
>>1645278
Нету. Ты как был так и останешься терпилой обладателем отсутствия
Аноним 03/07/26 Птн 11:49:07 1645281 453
>>1645279
Нищета ебаная спокнись со своими 16 рам. Тут серьезные дяди важные вещи обсуждают
Аноним 03/07/26 Птн 11:50:08 1645283 454
>>1645278
Если обмажешься 128 и парой видеокарт, сможешь катать дипсик флеша, а это сраный вин в своём размере.
Аноним 03/07/26 Птн 11:50:19 1645284 455
>>1645281
У меня 128+24 и пресетик на эйр, так что завались и слушай своего папочку
Аноним 03/07/26 Птн 11:50:50 1645286 456
>>1645278
По идее должен быть в нормальном кванте qwen3.5 122B A10B
Хотя лично мне он меньше зашел, чем 27b dense или 397B MoE, хотя я и не много его тестил
Аноним 03/07/26 Птн 11:56:19 1645289 457
>>1645277
>Это база, вся хата компами обставлена, зато никакой ебли с райзерами и слотами.
Два чая. Хочу сделать еще групповой чат, чтобы LLM друг с другом пиздели. Можно будет даже в мафию сыграть.
Аноним 03/07/26 Птн 12:00:47 1645294 458
>>1645284
Почему GLM 4.7 Flash такой сломанный? Я от разных чуваков тестировал ггуфы и везде какая-то залупа. Не удивительно, что в треде упоминаются либо большие ГЛМ, либо эир, видимо с 4.7 не только у меня так.
Аноним 03/07/26 Птн 12:04:49 1645296 459
>>1645294
Потому что это 30b-A3B кодоунитаз.
Аноним 03/07/26 Птн 12:09:09 1645297 460
>>1645286
122 неюзабелен для рп, если только ты не отыгрываешь соевое научнопопулярное с добрым ассистентом
Аноним 03/07/26 Птн 12:29:45 1645302 461
>>1645278
Он не знает, что может купить два раза по 64.....
Ничего уже не поможет бедолаге, даже пресетик.
Аноним 03/07/26 Птн 12:48:36 1645316 462
>>1645145
Не поленись, сделай llama-bench в разными -d до куда влезает в память. Сильно больно быть не должно, поскольку у квена атеншн легко считается.
>>1645180
> Что за ванилла?
Оригинальный openclaw
> в чем вообще смысл агентов, если ты не кодишь и не исполняешь какие-то сложные пайплайны
Исполнять какие-то сложные пайплайны чтобы помогать тебе не в кодинге? Заведовать календарем, записями, отслеживать всякое, выполнять поручения, проводить поиск и легкие исследования, что-то обсуждать, развлекать тебя.
> применение локальным агентам
> вкатиться в локальных агентов
Что ты понимаешь под локальными агентами? Это те же самые тулзы, просто натравленные на локальный апи.
> Ну не для кодинга нужны ллм.
Ллм нужна чтобы в кодинге или других прикладных задачах ты уохал, восхищаясь с нее, и хотел завести с ней детей. А потом с той же моделькой переходишь в другой интерфейс и уже уохаешь заводя детей.
Насчет контента по теме - увы, нет ничего нормального и все завалено дампом пустого нейрослопа, читаемого говорящими головами.
Аноним 03/07/26 Птн 12:54:31 1645320 463
>>1645240
Nvme сводобные есть? Купи райзер-адаптер и подключай.
> БП 1200вт, его будет либо хватать в притык
У тебя там основной камень - серверный монстр на 400вт? Если такой уж трясун - палю годноту: заходишь в afterburner или lact и выставляешь андервольтинг с ограничением мощности карты в 400вт. Потеряв 5% перфоманса срезаешь треть рожа, освободившегося с лихвой хватит на вторую карту.
>>1645277
400 на 5090
> Это база
Это ужасно. Ты случаем не тот кадр, который некрориг из паскалей собирал?
>>1645278
Ну чисто технически это открывает возможность катать ~100б не в лоботомитах. Если у тебя уже есть рам - можешь попробовать попытаться завести одновременно 4 плашки имея 160гигов. Если взлетит и продерешься сквозь пердолинг - можно оставлять так, или потом дообновиться сделав 192гб дешевле 128. Но с ддр5 это будет очень больно, на ютубе есть много видео с практическими советами по запуску и разгону 4х плашек.
Аноним 03/07/26 Птн 13:24:46 1645332 464
image.png 449Кб, 684x620
684x620
>>1645320
> Ты случаем не тот кадр, который некрориг из паскалей собирал?

>>1645289
Я все никак их не соберу в матриксе. Там заеб с e2ee, либы, а у меня часть агентов на винда по фану стоят, и либы не билдятся. =D
Но понемногу настраиваю, да.

>>1645316
Ну, если будут силы и время, постараюсь.
Чтобы не бросать абы шо, а нормальный бенч по 5 прогонов или типа того, да.
Хотя опять же, некрокарты уже.

nanobot без личности => HermesAgent строгий => OpenClaw на постоянке на сервере => QwenPaw максимальный няшка-душка.
Такой рейтинг от работяги до душевного бро собрал.
Аноним 03/07/26 Птн 14:44:17 1645353 465
>>1645332
> а нормальный бенч по 5 прогонов
Сильно не заморачивайся, хватит и одного. Если хочешь быть полезным - лучше подготовь советов и рекомендаций для владельцев, которые посчастливилось работать с такими картами.
> QwenPaw
Опа, какие там киллерфичи?
А чисто для работяги лучше консольные клиенты или их обертки. Причем душевному ассистенту можно давать к ним доступ для вызовов.
Аноним 03/07/26 Птн 15:05:36 1645363 466
>>1645353
На самом деле, вариантов больше.
1. Приложуха-чат. Запустил, переписываешь внутри, он что-то делает. GUI.
2. Консолька. Запустил, переписываешься внутри командной строки, он что-то делает. TUI.
3. Вообще-то телеграм, матрикс, ВК, ОК, сервер линейки. Запустил приложуху или консольку, она подхватывает channel, переписываешь где хочешь.
И это все — одно и то же в случае многих агентов. Т.е., тот же гермес ты можешь запустить и как десктопное приложение, и как консольный сервис (это одно и то же, просто отличается наличием графической оболочки), и никто не мешает переписываться одновременно и в чате десктоп-приложения, и в телеге одновременно.

Так что, по сути, разницы нет, все зависит от того, что именно тебе ближе. Ну и где запускаешь. И с чего хочешь начать (первые полчаса помучаться с настройкой каналов для связи).

Киллерфичи в Квене вроде… никаких особо, просто очередной с хорошими отзывами. Но в общем мне понравился вполне.

Так как все агенты могут писать себе навыки, обмениваться ими, общаться по разным каналам, использовать апишку или браузеры, какой-то существенной разницы нет. Через 10 лет ты получишь персонализированного ассистента а ля super app. ИМХО.
Аноним 03/07/26 Птн 15:08:22 1645365 467
>>1645186
Так они и с нейронками вынуждены платить кодомакакам.
В плане кодинга, считаю, что we are not there yet. Автокомплит, обвязанный харнесом это все равно автокомплит исходного англюсека. Так если смысл этого говна - это кодинг, то пусть сделают специализированные модели, которые не английский комплитят, а сразу парс-три генерируют. Вот это было бы мое почтение.
>>1645232
Это буквально glorified structured extraction с кросс-референсами на красивеньком уи обсидиана. Андрюха высрал, интернет занюхнул. Ничего нового.
Если ты не гуманитарий, которому нужно от корки до корки несколько источников на 300 страниц изучить, а просто васек, который пишет типовой диплом, по техническому/естественнонаучному направлению, то тебе буквально достаточно пару обзоров по твоей или смежной тематике прочитать. Там уже все будет, и все это хэндмейд. И ты со своей куцей университетской базой просто и без задней мысли делаешь диплом. Все это грубая генерализация над дипломниками, которые у меня были. Что там у гумманитарией и гострайтеров, я хз. Но звучит неубедительно.

Ну или ты хочешь мне сказать, что ты типа сказал нейронке, погуглить источники на определенную тему и составить базу знаний. И так получилось, что полтиник статей очень хорошо лег в голую вики, и ты ничего не читая, и не вникая просто написал. Если ты не попросил нейронку из скомпиленной вики все за тебя написать, и сдал не глядя, то тебе пришлось бы энивэй читать то, что она тебе наизвлекала и напересказала. Удобный справочник с поиском противоречий тебе и обычный раг без наворотов предоставляет.

ТЛДР; считаю, что гобатая вики это flashy фингербокс вокруг структурированного экстракшена но с добавлением кросс-референсов, что само по себе хорошо и полезно для какого-то домена задач, но большинство реализаций это более эффективное коллекционирование кала, которое не предполагает систематического пользования базы, и даже затрудняет его.
Могу быть не прав, но это вина даунов, которые делают этой залупе неправильную рекламу. А может, из-за того, что я и так подобные вещи использовал раньше, для меня это Seinfeld is unfunny.
>>1645316
> Что ты понимаешь под локальными агентами?
Полуавтономную ллм с тулл колингом, с которой могу решать какие-то задачи. Да, неконкретно. Но для меня это что-то типа бипок. Вот когда заюзаю агенто-бипку, я должен сразу понять что это оно и охнуть от того, как это классно и полезно. Из того, что я придумал, это дать агенту свой гуглсколар и свои записи, чтобы он подстроил под меня рекомендательную систему и раз в какое-то время делал пылесосинг всех баз данных и предлагал мне статьи, которые могут быть мне интересны, и потенциально, почему они могут быть интересны. Но это скорее пайплайн с ЛЛМ агентный фреймворк, мб такое можно назвать, но не сам агент, когда ты у него справшиваешь там "Where did I leave my keys?", или просишь сделать что-нибудь, и он делает, советуясь с тобой по всяким деталям реализации.
Кароч, хз, я видимо просто думал, что агенты это что-то больше, чем ллмки с тулами, но это оказалось не совсем так.
Аноним 03/07/26 Птн 15:09:31 1645366 468
>>1645239

А, блин, было такое, дефолтная лама не поддерживает i32, пришлось вайбкодить поддержку.
но вроде как просто в рецепт можно добавить

ffn_gate_tid2eid=i32

чтобы он их не квантовал и всё.
Аноним 03/07/26 Птн 15:12:15 1645369 469
>>1645215
>Кстати, а как насчет того, что первые и последние пять лучше оставлять в кванте повыше?
Ну да, должно качество улучшить, но и размер увеличит, и так немаленький. Делай если хочешь.
Аноним 03/07/26 Птн 15:25:42 1645376 470
>>1645363
Во всяких claw-like удобно иметь ассистента, который достаточно универсален, обвешивать его кучей разнообразных скиллов, инджоить функционал и нативные интеграции. Но это неудобно для основной работы с кодом или реализации прикладных пайплайнов, только мелочь и протипирование.
Консолечка идеальна для кодинга или создания пайплайнов для потокового использования: ничего лишнего, ничего не перемешивается, все под рукой, и весь контекст в твоем распоряжении. Не трясешься что твоя умница вдруг забудет что ты ей сутра говорил, попытается лезть в твои другие проекты в поисках примеров. Или наоборот глубокий пласт культурных знаний о фетишах, литературе и как правильно промптить нудсы при генерации будут отвлекать от конкретной задачи.
Специализация и разница тут существенные получаются. Хз, кто-то в опенклоу кодить пытается, но это мазохизмом попахивает.
> Через 10 лет ты получишь персонализированного ассистента а ля super app.
Нужно чтобы такая система была способна отбрасывать прочее и фокусироваться на конкретной задаче, переходя в "рабочий режим" и выгружая лишнее. Соответствующим образом должен меняться и интерфейс. А по окончанию возврат обратно. Собственно, сейчас это уже реализуется простой сменой оснастки, а осведомленность ассистента верхнего уровня делается через воспоминания по текущим проектам, которые заполняет агент-специалист.
Такое видение имею.
>>1645365
То что ты описываешь можно реализовать и инджоить.
> что агенты это что-то больше
Так и есть, это большая песочница где вместо песка все доступные материалы и все зависит от архитектора. Есть и много готовых решений, но их делали под себя или под что-то среднее. Учитывая доступность и производительность - это не проблема.
Аноним 03/07/26 Птн 15:28:01 1645378 471
>>1645366
>>1645369
Спасибо! =)
Полезный разбор, погрузился в тему глубже.
Ушел квантовать.
Аноним 03/07/26 Птн 15:28:16 1645379 472
image.png 35Кб, 897x229
897x229
Пикрил - почему надо паролить даже локальные сервера. Лламу не обновлял, вообще ничего с точки зрения софта не менялось, при этом кто-то стучится на сервер. К локальной сети никто посторонний доступа не имеет. Провайдер Ростелеком. Думайте.
Таверну я, конечно, запаролить забыл.
Аноним 03/07/26 Птн 15:48:48 1645391 473
>>1645379
Ага, потому что ростелеком позволяет входящие через свой нат. Это не баг, это фича. Отключай upnp на роутере.
Аноним 03/07/26 Птн 16:05:10 1645396 474
>>1645379
Роутер настрой нормально. Все новые инпуты и форварды с порта в который интернет заходит - нахуй.
У тебя без фильтров небось еще и в dns снаружи долбятся так что половина цпу роутера съедается
Аноним 03/07/26 Птн 16:07:12 1645399 475
image.jpg 69Кб, 1314x503
1314x503
monroe.jpg 109Кб, 1600x900
1600x900
>>1643523
грустно конечно, но предсказуемо.
лучше скажите сколько же в геминю заливают порнухи что оно правильно угадывает что кадр из порнухи и и даже правильно галлюцинирует имя порнушницы. вот тебе и цензура датасетов...
Аноним 03/07/26 Птн 16:48:32 1645418 476
>>1645399
>лучше скажите сколько же в геминю заливают порнухи что оно правильно угадывает что кадр из порнухи и и даже правильно галлюцинирует имя порнушницы
Ну так а почему наша геммочка такая блядь, её тем же кормят.
Я знаю одно обсурное место в интернете где из гемини сделали помощника-поисковик по легальной порнухе, говоришь какую мерзость хочешь увидеть и он реально тебе такое даст основываясь на реальном содержании роликов, не на тегах...
Аноним 03/07/26 Птн 16:51:58 1645422 477
>>1645365
>буквально достаточно пару обзоров по твоей или смежной тематике прочитать
Если делать кальку чужого проекта, то наверное это так
Я с нейронкой разбирал проект, у которого был только исходный код в виде .h и .cpp и, благодаря UML диаграммам и нормальному описанию от ллм я потратил меньше сил и времени на понимание, что и как там работает. Ну в целом генерация документации из исходного кода - это одна из самых крутых фишек, потому что кому охота это руками делать, и, тем более обновлять это все с любыми изменениями.

>гострайтеры
Есть еще и гостюзеры, это дофига всяких разных инженеров. Ну и как обычно бывает в конторах своя локальная нормативка, свои регламенты и бизнес процессы, а есть нормативка федеральная, например. И надо, чтобы это друг с другом не создавало противоречий. А еще это все постоянно актуализируется, при любом обновлении надо проверять целостность нормативной базы.

Это я еще не брал во внимание всяких юристов.

>обычный раг без наворотов предоставляет
Так ллм вики в минимальной конфигуации еще проще - это просто набор .md файликов, часть из которых попадает в промпт и базовые тулы прочитать/написать. А если хочется, то туда можно и rag прикрутить
Аноним 03/07/26 Птн 17:23:16 1645433 478
>>1645399
Да вы заебали дурни, уже третий пост про это, и это только что я застал.
Никто в корпу не "заливает" такие мелочи, может быть текстом назовёт если имя спросишь, если очень повезёт. У неё доступ через тулзу к картинкопоиску гугла - так и "знает". Если бы ты чисто теоретически поднял у себя дома гемини без тулз и переспросил она бы ответила "хуй знает"
Аноним 03/07/26 Птн 17:33:25 1645441 479
16450154396982.png 210Кб, 540x540
540x540
image.png 33Кб, 1448x241
1448x241
image.png 99Кб, 1787x192
1787x192
>>1642639 (OP)
>Перевод нейронками для таверны: https://rentry.co/magic-translation
>https://github.com/bmen25124/SillyTavern-Magic-Translation/
Кто-то юзал/юзает это?
У меня два вопроса, во-первых, чому тут:
>https://github.com/bmen25124/SillyTavern-Magic-Translation/blob/main/dist/index.js
, код обфусицрован? Типа, я знаю, что JSеры часто обфусцируют свой говнокод, особенно, если это скрипты какого-то крупного ресурса, для усложнения реверс инжиниринга и отладки. Но всё же, обфускация - это всегда признак малваря и очевидно, что сайты крупных сервисов - действительно являются потенциальными вредоносами со слежкой. Однако, здесь же довольно нишевый проект, зачем ему обфусцировать свой код?
Как будто, папка dist, намекает на собранный проект, пригодный для дистрибуции. То есть, в принципе, если это таким образом в экосистеме js собираются проекты, склеивая всё в один громадный файл, то, как будто, это бы всё объяснило. Но я нихуя не понимаю в JS, так что ничо сказать нимагу.

Второе, где должен отображаться вывод команды:
>/magic-translate-text <text>
?
Я что-то ниасилил UI и просто смотрел вывод в консольных логах ST, но типа там дохуя мусорных символов и отдельно вычищать это довольно геморно.
Аноним 03/07/26 Птн 17:38:39 1645447 480
image.png 333Кб, 1786x844
1786x844
>>1645441
Вот этот блок вообще ахуенно выглядит. Прямо как полезная нагрузка.
Аноним 03/07/26 Птн 17:46:24 1645450 481
>>1645418
не знаю про какое место речь, но откуда инфа что там гемини? мб в качестве оркестратора
>>1645433
орлы? это арена, на скрине обычный сайд бай сайд, поиск отключён. можешь сам проверить и спросить что нибудь что только с поиском можно ответить.
Аноним 03/07/26 Птн 17:53:11 1645455 482
v=VoDTLV3WvWk.jpg 80Кб, 1280x720
1280x720
А были ли эксперименты использовать технологию abliteration/heretic еще как ни будь т.е. кроме джейл брейка? Может там пытались positivity bias убрать или личность дать?
Аноним 03/07/26 Птн 18:06:33 1645464 483
>>1645450
>блок ризонинга с корп тупо не отправляется гоям
>поиск отключен =)
Вiрю, как не повiрить
Аноним 03/07/26 Птн 18:12:33 1645468 484
>>1645464
чёж тогда модель мисс мурпл не прогуглила? >>1643523
скрывает свой паверлевел от гоев а мне по блату сделала исключение?
Аноним 03/07/26 Птн 19:16:09 1645497 485
>>1642639 (OP)
Посоны, китайец прислал теслу с зеленым пси-е-адаптером.
Показывает только 8 линий.
Это адаптер такой херовый или я где-то напортачил?
Аноним 03/07/26 Птн 19:37:07 1645504 486
>>1645497
На pci-e штекере распаяны 16 элементов.
Я болты подтянул хорошо так, от адаптера не откручивал, мог перетянуть и отрубить линии? Затянул хорошо, но без надрыва особого.
Аноним 03/07/26 Птн 19:41:17 1645506 487
>>1645504
>>1645497
Вытащи карту из соккета, проверь чтобы он был без повреждений. Аккуратно пересобери все, на некоторых райзерах потребуется удалить пружинки, иначе будет перекос.
Скорее всего после пересборки все будет ок, также проверь райзер.
Аноним 03/07/26 Птн 19:46:44 1645507 488
>>1645506
>>1645497
У меня только что стояла другая, с черным адаптером, все ок.
Поставил новую зеленую и от такая хуйня.

Я вообще черную покупал. В споре с китайцем как больше струсить? Сразу по-чесноку ставить галку на готовность частичной компенсации или с двух нух полный возврат вжимать? В любом случае оставлю себе, она работает, на бабки на следующую не хватает)
Аноним 03/07/26 Птн 20:07:52 1645511 489
Есть у кого опыт установки локалок на облака?
Аноним 03/07/26 Птн 20:13:53 1645513 490
тут вроде раньше ComfyUI , а сейчас не вижу
Аноним 03/07/26 Птн 20:58:25 1645531 491
На gemma4 26b-a4b можно квантовать контекст?
Запилил себе генератор промптов на этой гемме в q8 (с mtp и mmproj, чтобы референсы кидать) с 12288 неквантованного контекста (т.к. на каждую картинку до 4096 токенов выделяю) на 3060-12, скорость приблизительно 25 т/с получается, но с q8 больше слоёв влезет - насколько сильно это похерит всё?
И вообще, правильно ли я делаю-то, просто прицепляя картиночки к сообщению в sillytavern для референсов? Судя по ризонингу, надписи гемма читает на предоставленных картиночках.
Аноним 03/07/26 Птн 21:05:26 1645534 492
>>1645531
Если судить по метрикам, то гемма в целом довольно хуёво квантуется, в разы хуже квена.
Аноним 03/07/26 Птн 21:07:36 1645536 493
>>1645531
С одной стороны именно на гемме контент квантовать очень не желательно, а с другой на 12к контекста может и не заметно будет, он на долгом начинает шалить
Но я б mtp выкинул (он всё равно на moe нифига не даёт) и вырубил квант
Аноним 03/07/26 Птн 21:16:04 1645542 494
>>1645534
На какие метрики ты ссылкаешься? Доставь, будь добр.
Аноним 03/07/26 Птн 21:23:42 1645549 495
Аноним 03/07/26 Птн 21:41:13 1645553 496
>>1645441
>код обфусицрован
Даже если это не малвар, как минимум это признак долбаеба на разрабе. Опенсорсный код должен быть читаемым, иначе он нахуй не нужен.
Аноним 03/07/26 Птн 21:50:33 1645555 497
>>1645441
> Как будто, папка dist, намекает на собранный проект, пригодный для дистрибуции. То есть, в принципе, если это таким образом в экосистеме js собираются проекты, склеивая всё в один громадный файл, то, как будто, это бы всё объяснило. Но я нихуя не понимаю в JS, так что ничо сказать нимагу.
Да, это дефолт с вебпаком, хотя в зависимости от стека на js есть разные подходы - чаще всего собранный код на чанки делят по модулям, а не в один всё пихают.

В любом случае, в dist лежит производное от src, хотя dist обычно не коммитят т.к. ты его можешь собрать сам из исходников. Можешь попробовать удалить dist и выполнить npm run build - получишь тот же минифицированный нечитаемый файл. А если результат не совпадает, то это повод задуматься, не закинул ли автор пакета какой-го говняк.
Аноним 03/07/26 Птн 21:52:43 1645556 498
>>1645549
>KL divergence

Ну хоть не по ppl, но все равно не совсем то что надо.
Собственного эти тесты доказывают только что квен квантуется лучше геммы, а 31В квантуется лучше 26В, и всё - отпределить по относительным друг от друга величинам абсолютные показатели качества с квантованием нельзя. То что при квантовании в некоторых случаях выдается другой токен сразу даст большой KL divergence, но на реальное качество может вообще не повлиять.
Вот если бы там наглядные реальные метрики по работе с контектом были типа context retrival или needle in haystack - тогда другое дело.
Аноним 03/07/26 Птн 22:28:49 1645570 499
df5227bca920aa8[...].jpg 179Кб, 736x736
736x736
>>1645553
Да, но как написал Анон ниже, это своего рода компиляция, как я и думал. Правда опять же странно, что это прямо в мастер захуячили.
То же самое, что в репу бинари коммитить.

>>1645555
Ага, спасибки за пояснение. Я так и думал, что это что-то вроде сборки.

В принципе, хули, сишные компиляторы до сих пор тоже препроцессором всё(не прямо конечно всё, но энивэй) в одну портянку склеивают, лол.

> Можешь попробовать удалить dist и выполнить npm run build - получишь тот же минифицированный нечитаемый файл.
> А если результат не совпадает, то это повод задуматься, не закинул ли автор пакета какой-го говняк.
В принципе, я правильно понимаю, что этот нечитаемый мусор, это склейка и исходников, и либ в одной каше?
Просто если да, то, вероятно, ничего удивительного если результат будет отличаться. Очевидно, разраб не предоставил данные о том, как собирал сабж, а если даже минорные версии каких-то либ будут отличаться, то результат уже уплывёт.
Аноним 03/07/26 Птн 22:56:30 1645586 500
>>1645570
> В принципе, я правильно понимаю, что этот нечитаемый мусор, это склейка и исходников, и либ в одной каше?
Да, всё так. Компиляция курильщика считай, где вместо машинного/байт-кода у тебя минифицированное нечто.

> Просто если да, то, вероятно, ничего удивительного если результат будет отличаться. Очевидно, разраб не предоставил данные о том, как собирал сабж, а если даже минорные версии каких-то либ будут отличаться, то результат уже уплывёт.
Тоже верно, от окружения результат сборки может плавать, так что на мой коммент под спойлером не обращай особого вниания.
Аноним 04/07/26 Суб 00:44:52 1645631 501
>>1645507
>Поставил новую зеленую
В тот же разъем, как я понимаю? Ну так, на всякий случай.

За половину линий надо половину цены)
Ко мне сейчас тоже едет вторая тесла, надеюсь не получится как у тебя
Аноним 04/07/26 Суб 08:40:03 1645708 502
>>1645278
>>1645283
Объясните, зачем вам поднимать дипсрёньк флеш на оборудовании за 300к+, если там с кэшированием выходят сущие копейки и на эти деньги наверное лет 5 можно пользоваться 24/7
ПЕРЕКАТ Аноним # OP 04/07/26 Суб 09:52:38 1645730 503
Аноним 04/07/26 Суб 10:08:05 1645735 504
>>1645708
> зачем вам поднимать модель на оборудовании за 300к
Потому что в этом смысл треда. Пердолить модельки потому что можем и хотим. Кто то считает пряники, кто то гладит хвостики, кто то спасает галактику, а кто то наслаждается шестью пар сиськами и инопланетной тентаклей.

>дипсрёньк флеш
Виновая моделька, хули.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов