новости ChatGPT нейронные сети технологии Искусственный Интеллект удалённое 

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

OpenAI  выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Deception Rate Frontier Models are Capable of In-context Scheming 1.0 0.8 0.6 0.4 0.2 0.0 Evaluation Types Oversight Subversion ■ Self-Exfiltration ■ Goal-Guarding llama-3.1 opus-3 n=320,новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое
Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое
Развернуть

гифки жемчуг Устрица добыча удалённое 

Вариант добычи жемчуга без смерти устрицы

Развернуть

гифки морская платформа корабль команда стабилизация удалённое 

Развернуть

Allison Friend красивые картинки art котэ удалённое 

 V,Allison Friend,красивые картинки,art,арт,котэ,прикольные картинки с кошками,Allison Friend,,art,cats,удалённое,
Развернуть

BB's drawings artist Anime Ero Anime фэндомы tetsuwan birdy Anime OldSchool birdy cephon altera удалённое 

BB's drawings,bb (baalbuddy), theartistknownasbb,artist,Anime Ero,Взрослые Няшки,Anime,Аниме,фэндомы,tetsuwan birdy,Anime OldSchool,birdy cephon altera,BB's drawings,artist,Anime Adult,Anime,fandoms,tetsuwan birdy,anime oldschool,birdy cephon altera,удалённое,

Развернуть

гифки Великобритания железная дорога миниатюры мини удалённое 

Железнодорожный парк Уорден в Великобритании. В нём можно покататься на точных мини-копиях настоящих поездов. Железнодорожный парк принадлежит обществу моделистов города Лейланд, а прокатиться там может любой желающий.

Развернуть

Zezhou Chen artist RimWorld Игры NSFW под катом еще Баян удалённое 

 ' ^ ^'7 • »•* ‘V •''í ■-•#,*• _ .><> . ? * */?F3 ™ .* i •’ já&-j*&L y. ‘t¿:.%- '•ws:é¿fi. ■■' . ;* '-CiQ :»' A. Г , .c. № je >•• лС^^ГйГ "V'T . :zhouchen.com,Zezhou Chen,artist,RimWorld,Игры,NSFW,под катом еще,Баян,баян, боян, баяны, бояны, баянище, боянище,удалённое

© ZEZHOU / ZEZHOUCHEN.COM,Zezhou Chen,artist,RimWorld,Игры,NSFW,под катом еще,Баян,баян, боян, баяны, бояны, баянище, боянище,удалённое

Развернуть

1 удалённое 

1

Madaya Douma Kanake,1,удалённое
Развернуть

видеогифки гифки живность котэ азиаты удалённое 

Развернуть

Комиксы herta burbe удалённое 

У ТЕБЯ НЕТ ОДНОГО ГЛАЗА! 9П74,Смешные комиксы,веб-комиксы с юмором и их переводы,herta burbe,удалённое
Развернуть