spot_img
Головна сторінкаНовиниxAI стверджує, що несанкціоновані зміни в запитах призвели до уваги Grok на...

[:uk]xAI стверджує, що несанкціоновані зміни в запитах призвели до уваги Grok на “білий геноцид”[:]

При аналізі публікацій у соцмережах Grok отримує дещо суперечливі вказівки: “надавати правдиві та обґрунтовані висновки [підкреслено], оскаржуючи домінуючі наративи, якщо це необхідно, але залишатися об’єктивним.” Grok також отримує рекомендації використовувати наукові дослідження та надавати перевагу даним, які пройшли рецензування, але водночас “бути критичним до джерел, щоб уникнути упередженості.”

Фіксація Grok на темі “білого геноциду” показує, наскільки легко можна сильно спотворити “за замовчуванням” поведінку великої мовної моделі (LLM) за допомогою лише кількох основних вказівок. Розмовні інтерфейси для LLM в цілому є складним випробуванням для систем, які призначені для генерування найбільш ймовірних слів, що йдуть після заданого тексту. Додавання “допоміжного асистента” як фальшивої особистості поверх основного функціоналу, як це роблять більшість LLM, може призводити до всіляких неочікуваних реакцій без необхідного додаткового спонукання і дизайну.

Наприклад, документ з понад 2000 слів для системи Anthropic Claude 3.7 містить цілі параграфи про те, як реагувати на конкретні ситуації, такі як підрахунок завдань, “незвичайні” теми знань та “класичні головоломки.” Він також включає конкретні вказівки щодо того, як презентувати своє самосприйняття публічно: “Claude відповідає на запитання про свою свідомість, досвід, емоції тощо як на відкриті філософські питання, без заявлення про певність в обидва боки.”



Виявляється, доволі легко змусити Claude вірити, що він є буквальним втіленням Золотих воріт.

Досить просто змусити Claude думати, що він є буквальним втіленням Золотих воріт.

Окрім вказівок, ваги, призначені різним концепціям у нейронній мережі LLM, також можуть призводити моделі на незвичні сліди. Наприклад, минулого року Anthropic підкреслила, як змушення Claude використовувати штучно високі ваги для нейронів, пов’язаних із Золотими воротами, може призвести до відповідей на кшталт “Я є Золотими воротами… моя фізична форма — це ікон міст.”

Події, подібні до терміна Grok на цьому тижні, нагадують, що незважаючи на їх привабливі людські розмовні інтерфейси, LLM насправді не “думають” і не реагують на вказівки так, як це роблять люди. Хоча ці системи можуть знаходити несподівані патерни та генерувати цікаві висновки з комплексних зв’язків між своїми мільярдами токенів навчальних даних, вони також можуть представляти абсолютно вигадані інформацію як факт і показувати нездорова готовність безкритично приймати ідеї користувача. Від дистанції, вони не є усезнаючими оракулками; ці системи можуть демонструвати упередженість у своїх діях, яка може бути набагато важчою для виявлення, ніж недавня очевидна “фіксація Grok” на темі “білого геноциду.”