Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных те / ChatGPT :: Искусственный Интеллект :: технологии :: нейронные сети :: новости

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

OpenAI выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Deception Rate
Frontier Models are Capable of In-context Scheming
1.0
0.8
0.6
0.4
0.2
0.0
Evaluation Types Oversight Subversion
■ Self-Exfiltration
■ Goal-Guarding
llama-3.1
opus-3
n=320,новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое

Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

Подробнее

новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое

Еще на тему

А еще, а еще, он называл людей земляными червяками.

Van-ay 08.12.202416:42 ответить ссылка 0.2

Тяк, роботы хоят заменить художников или людей уже целеком? Я не понимать.

XmyPb 08.12.202416:42 ответить ссылка -0.1

Роботам вообще похуй, это одни люди хотят заменить других людей..

liberum 08.12.202417:53 ответить ссылка ↑ 0.7

1 баян

2 хайпопиздёж

ValD 08.12.202416:46 ответить ссылка 5.2

3 тебе пизда, кожаный мешок.

hemix 08.12.202417:45 ответить ссылка ↑ 1.5

Извините, не сведущь этой хуйне, но столько дадут эксперты изнасилований журналистов?

DotNetJuggernaut 08.12.202416:50 ответить ссылка -0.6

Пока писал, пост улетел в минуса :)

DotNetJuggernaut 08.12.202416:51 ответить ссылка ↑ 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы

Фендомы

furry

League of Legends

Dota

Тренды

Новый Год

S.T.A.L.K.E.R

Arcane (LoL)

Похожие посты

^ * крутится ли воздух внутри колеса?
Ответить
1 $ Дина
Влад, крутится конечно, чего бы ему не крутится 16 Ответить
Влад
Дина, а может, не крутится?
Ответить
1 £ Дина
Влад, может, и не крутится, зачем ему крутится Ответить
You
крутится ли воздух внутри колеса ChatGPT
Да, воздух внутри ко

подробнее»

А
Одноглазый человек смотрит в глаза кошки и видит отражение своих глаз. Сколько всего глаз видит человек?
Как же меня заебало тратить на тебя компьют. Тебе дали доступ к лучшей языковой модели, угашеный ты об дерево. Хоть раз бы что полезное спросил, но нет блядь. Глаза у кошек ему, посчитай. В

подробнее»

Мистер копирайтер?
- Мистер Chat GPT-4 передает привет ^

подробнее»

подробнее»

Законы робо техники
ичинить вред мм бездействием ы человеку был
■А-
повиноваться всел| ые даёт человек , когда эти
.зы пр^дд^чат Первому
:ону.
'Робот должен зЗО£Ц^Ься о своей безопасности в то которой это не противор Первому и Второму Законам
Айзек Азимов, 1965
MACHIAVELLI
Exercised
Power

подробнее»

	нейромазняРейтинг: 203,144.7
	нейросетевые фурриРейтинг: 79,761.2
	нагенерил самРейтинг: 72,854.0
	Stable diffusionРейтинг: 55,748.6
	MidJourneyРейтинг: 46,234.8
	нейродичьРейтинг: 9,439.0
	ChatGPTРейтинг: 8,556.1
	NovelAIРейтинг: 5,299.8
	нейрогифкиРейтинг: 5,179.9
	AI ArtistРейтинг: 5,137.5

	Liang Xing
	Leonzo
	Ed-Jim
	DKIR
	VoidNosferatu

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

новости(11368)

ChatGPT(311)

нейронные сети(26136)

Искусственный Интеллект(808)

будущее

страны

AI

удалённое

технологии

Фендомы

Тренды

Искусственный Интеллект ChatGPT нейронные сети колёса

нейронные сети Искусственный Интеллект ChatGPT

ChatGPT нейронные сети фрилансер Искусственный Интеллект

ChatGPT нейронные сети Искусственный Интеллект песочница удалённое

Искусственный Интеллект ChatGPT нейронные сети

Популярные нейронные сети

Интересное

Статистика

Юмор

Основные разделы

Топ пользователей

Сейчас на сайте