Как настроить SillyTavern?
Осведомлённое товарищество, вопрошаю поскольку больше обратиться не к кому, а мои знания английского не позволяют точно интерпретировать смысл иностранных гайдов. Кое-как с горем пополам, жопой раком об косяк, установил да настроил себе SillyTavern, а также отобрал фандомных ботов, чтобы имели понятие об контексте своего происхождения и могли ответить на лорные вопросы. И только собрал библиотек, начал полноценное РП в духе Войны Миров по Уэллсу, как эти синтетические гниды начинают отвечать за меня... Дайте пожалуйста совет, каким образом настроить персонажей, дабы перестали отвечать и действовать за пользователя, заодно поделитесь разными мудростями на сей счёт, например какие модели ИИ использовать для ботов.
Еще на тему
Отучить говорить за тебя можно:
1) в первом сообщении должен быть минимум действий от лица пользователя, а лучше вообще без них
2) редактируй их ответы - как только отвечает за тебя, убирай этот абзац, либо отсылай запрос повторно. (Повторяемые элементы дают боту стимул повторять их еще больше. С этим трудно боротся, но 100% решения цикличности нет.)
3) постарайся искренне ролеплеить. Чем лучше написан твой пост, тем лучше на него ответит бот.
4) Jailbreak - очень сильно поведение бота зависит от джейлбрейка. Это не панацея, но попробуй добавить строчку в духе "Always reply from viewpoint of {{char}}. Never reply and never act as {{user}}."
5) напрямую скажи в сообщении, что ты хочешь от бота, добавив в конце своего ответа что-то в духе. "(OOC: write the next reply as {{char}})" OOC = out of character, используется в онлайн-ролеплее.
Вообще, сейчас бесплатных годных решений немного. Пару месяцев можно было жить с Claude через Slack, но золотые времена прошли и сейчас тамошняя модель зацензурена по шею.
... возможно, у локальных моделей такого поля нет, не уверен.
"OOC" просто в сообщение, отдельной строкой. После генерации ответа, можно отредактировать свое старое сообщение, чтобы повторно не отправлять этот кусок (экономит токены + есть шанс, что модель тебе точно так же в этом формате ответит, что вряд ли желаемо).
Ну как дорого, если не срать мусорными реквестами нонстоп, то более-менее. Особенно с учетом того, что и качество на выходе не в пример выше, чем у "фришных" аналогов
Models with 8k context lengths (e.g. gpt-4 and gpt-4-0314), the price is:
$0.03/1k prompt tokens
$0.06/1k sampled tokens
Models with 32k context lengths (e.g. gpt-4-32k and gpt-4-32k-0314), the price is:
$0.06/1k prompt tokens
$0.12/1k sampled tokens
Все онлайн сервисы зацензурены, локально мне зашел koboldAI (для 4 bit свой форк) самое без проблемно работающее, ну и локльные модели это видеопамять (cpu медленно, но можно смотри koboldccp более простое и koboldai), модели 2.7B сразу в топку, лучше всего 30B 4bit влезают в 24Гб карты от нвидии ( и да для нейросетей никаких АМД, гемора многои не факт что заработает). Сейчас можно 3090 взять 50к+-. По самим моделям лидеры https://chat.lmsys.org/ тут же можно потестить, есть https://lite.koboldai.net/# от сообщества. Как-то так.
и вот попробуйте локально https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML, нужно 10Гб +-, через koboldccp
Гонял на проце, llama.cpp. Долго но работает и чисто оценить можно.
Жаль, что https://huggingface.co/IlyaGusev похоже забил на модели. У него самые классные русские модели.
ллама2 тоже с цензурой
Она хоть и 7В но цензуры не заметно. Хотя тупенькая, да. Но зато быстрее в 2 раза почти чем 13В (у меня 3.24 токена в секунду).
"Количество параметров - 13 миллиардов, Длина контекста - 2048 токенов. На 1 символ уходит примерно 4 токена"
https://rentry.co/ALLMRR
https://rentry.co/ayumi_erp_rating
https://rentry.co/PygmalionLinks