Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных те / ChatGPT :: Искусственный Интеллект :: технологии :: нейронные сети :: новости

новости ChatGPT нейронные сети технологии Искусственный Интеллект удалённое 

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

OpenAI  выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Deception Rate
Frontier Models are Capable of In-context Scheming
1.0
0.8
0.6
0.4
0.2
0.0
Evaluation Types Oversight Subversion
■	Self-Exfiltration
■	Goal-Guarding
llama-3.1
opus-3
n=320,новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое
Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое
Подробнее

новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое
Еще на тему
Развернуть

А еще, а еще, он называл людей земляными червяками.

Van-ay Van-ay 08.12.202416:42 ответить ссылка 0.2

Тяк, роботы хоят заменить художников или людей уже целеком? Я не понимать.

XmyPb XmyPb 08.12.202416:42 ответить ссылка -0.1

Роботам вообще похуй, это одни люди хотят заменить других людей..

1 баян

2 хайпопиздёж

ValD ValD 08.12.202416:46 ответить ссылка 5.2

3 тебе пизда, кожаный мешок.

hemix hemix 08.12.202417:45 ответить ссылка 1.5
Извините, не сведущь этой хуйне, но столько дадут эксперты изнасилований журналистов?
Пока писал, пост улетел в минуса :)
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
^ * крутится ли воздух внутри колеса?
Ответить
1 $ Дина
Влад, крутится конечно, чего бы ему не крутится 16 Ответить
Влад
Дина, а может, не крутится?
Ответить
1 £ Дина
Влад, может, и не крутится, зачем ему крутится Ответить
You
крутится ли воздух внутри колеса ChatGPT
Да, воздух внутри ко
подробнее»

Искусственный Интеллект ChatGPT нейронные сети колёса

^ * крутится ли воздух внутри колеса? Ответить 1 $ Дина Влад, крутится конечно, чего бы ему не крутится 16 Ответить Влад Дина, а может, не крутится? Ответить 1 £ Дина Влад, может, и не крутится, зачем ему крутится Ответить You крутится ли воздух внутри колеса ChatGPT Да, воздух внутри ко
А
Одноглазый человек смотрит в глаза кошки и видит отражение своих глаз. Сколько всего глаз видит человек?
Как же меня заебало тратить на тебя компьют. Тебе дали доступ к лучшей языковой модели, угашеный ты об дерево. Хоть раз бы что полезное спросил, но нет блядь. Глаза у кошек ему, посчитай. В
подробнее»

нейронные сети Искусственный Интеллект ChatGPT

А Одноглазый человек смотрит в глаза кошки и видит отражение своих глаз. Сколько всего глаз видит человек? Как же меня заебало тратить на тебя компьют. Тебе дали доступ к лучшей языковой модели, угашеный ты об дерево. Хоть раз бы что полезное спросил, но нет блядь. Глаза у кошек ему, посчитай. В
Мистер копирайтер?
- Мистер Chat GPT-4 передает привет ^
подробнее»

ChatGPT нейронные сети фрилансер Искусственный Интеллект

Мистер копирайтер? - Мистер Chat GPT-4 передает привет ^
Adobe Stock| #323829966 Законы робо техники
ичинить вред мм бездействием ы человеку был
■А-
повиноваться всел| ые даёт человек , когда эти
.зы пр^дд^чат Первому
:ону.
'Робот должен зЗО£Ц^Ься о своей безопасности в то которой это не противор Первому и Второму Законам
Айзек Азимов, 1965
MACHIAVELLI
Exercised
Power
подробнее»

Искусственный Интеллект ChatGPT нейронные сети

Законы робо техники ичинить вред мм бездействием ы человеку был ■А- повиноваться всел| ые даёт человек , когда эти .зы пр^дд^чат Первому :ону. 'Робот должен зЗО£Ц^Ься о своей безопасности в то которой это не противор Первому и Второму Законам Айзек Азимов, 1965 MACHIAVELLI Exercised Power