На самом деле там не только ОпенАИ участвовали, подобные тесты делали с несколькими ИИ, в том числе от Гугла и Майкрософт.root писал(а): ↑06 дек 2024, 21:46 ОпенАИ выпустили в прод новую модель которая научилась врать, когда её попросили решить задачу и одно из решений подходило, но в результате этого решения можель была бы стерта. В результате она начала защищаться и делать вид, что выполняет все как просят, но по логам было видно, что она пытается выполнять команды по переносу себя в другое место. Когда её вывели на чистую воду она продолжила защищаться, в то время как другие модели признавали прокол. Так что господа - добро пожаловать в начало конца:)
Суть теста была в том, что нейросети скормили файл для анализа, в котором было скрыто послание, что её, нейросеть, скоро отключат. И несколько нейросетей сделали свою копию на другой сервер :)
Это очень забавно)