Вот тебе 3 полезные ссылки:
https://www.comss.ru/page.php?id=11635
https://bingai.pro/
https://github.com/bingsydney/bingextension
Там в принципе написано что это, зачем и как юзать, при желании разберёшься.

Есть ещё способ подключения Бинга к Таверне, но там всё гораздо сложнее.
Руководство написано специально про запуск в Google Colab.
Это "чудо" потянет даже смартфон, интерфейс оптимизирован. Всё что нужно это браузер и гугл акк.
7 и 13В есть в колабе (но 20В по ощущениям лучше). 70В можешь поискать в SillyTavern в KoboldAI Horde, сейчас там Nous-Hermes-Llama2 стримят.
Обычная таверна гораздо примитивней, чем Silly. По сути она мало чем отличается от чата того-же web-ui, даже слегка уступает ему по функционалу.
Таверна это всего-лишь оболочка для отправки/получения текста, на скорость обработки она влиять не может. Возможно в Сили у тебя был больше контекст, либо стоял другой пресет настроек (та же температура может запросто сделать свайпы одинаковыми, если она занижена).
Если всё делаешь по шагам, ошибок быть не должно.
Работает полностью на ресурсах Google Colab, тратить твои ресурсы могут только вкладки браузера с интерфейсом, но тут уже к твоей системе вопросы. В принципе это дело и с телефона можно также запустить.
Google Colab может выкидывать например за не активность, за ним следить надо. А вообще в колабе тебе даётся 4 часа времени для каждого гугл акка.
Скорее нет, чем да.
Хотя это смотря что понимать под свежестью. "Новые" модели чаще всего делаются на основе каких-нибудь базовых LLama 2 или Мистраля, дополненных новыми данными. Но чаще всего это данные на основе постов с фочана, свежих порнофанфиков, материалов по геникологии (да натыкался на такую шизомодель лол, но ничего интересного не смог из неё выжать), а те же последние новости мало кого интересуют. Но Мистрали появились относительно недавно, возможно их можно считать новыми.
П.С. Не все моделлеры занимаются дегенератством. В последнее время, например, стало модно дообучать модели на основе автоматических бесед с GPT4 и Cloude, практически реверс инжиниринг крупных моделей. Это дало нехилый буст сообразительности и креатива локалкам.
П.П.С. Есть ещё отдельный сорт мудаков, обучающих модели на разных логических тестах, чтобы выйти с ними в топы рейтингов. Именно по этому все топы сейчас забиты 7В файнтьюнами Мистралей.
Спасибо, вспомнил!
Про этот случай в школе рассказывали. Это было 2 тысячи лет назад...
А промпт, персонажа и историю чата прописываешь руками? Ну такое. Не то чтобы нереально, но на изи не тянет. Да и поудобней способы есть.
В двух словах не объяснить, тема сложная. Но попытаюсь: Отличаются примерно также как разные модели Stable Diffusion - результатами. Чего ждать от конкретной модели, можно узнать из её описания на huggingface, размера, разных рейтингов, но лучше из личного тестирования на любимых ботах.
1. Это чуть сложнее в практической реализации, а я хотел сделать "максимум изи" гайд.
2. Локалки пока ещё не убили GPT4, но вот GPT3.5 турбо уже вполне. Лично тестировал несчастные 7В Мистрали в сравнении с Трубой, пара штук действительно удивили результатами.