Anthropic впроваджує заходи безпеки для Claude 4, щоб запобігти створенню зброї користувачами

Omar Marques | Lightrocket | Getty Images

Компанія Anthropic оголосила про впровадження більш жорсткого контролю за штучним інтелектом для свого останнього модельного продукту, Claude Opus 4.

Нові контрольні механізми, що отримали назву AI Safety Level 3 (ASL-3), покликані “обмежити ризики, пов’язані з можливістю використання Claude для розробки чи придбання зброї масового знищення, зокрема хімічної, біологічної, радіологічної та ядерної” зброї, йдеться в повідомленні компанії на блоговій платформі.

Anthropic, яка отримує фінансування від Amazon, зазначила, що вжиті заходи є превентивними, і команда ще не визначила, чи потребує Opus 4 додаткового захисту.

Крім Claude Opus 4, також було анонсовано Claude Sonnet 4, який, за словами компанії, володіє покращеними можливостями для “аналізу тисяч джерел даних, виконання тривалих завдань, написання контенту на рівні людської якості та виконання складних дій”.

Компанія повідомила, що для Sonnet 4 жорсткий контроль не є необхідним.

Джейред Каплан, головний науковий співробітник Anthropic, наголосив, що складність нових моделей Claude приносить та свої виклики.

“Чим складніше завдання, тим більше ризиків, що модель може спотикнутися… Ми зосереджені на вирішенні цих питань, щоб люди могли делегувати значну частину роботи нашим моделям”, — зазначив він.

В березні компанія опублікувала оновлену політику безпеки, яка стосується ризиків, пов’язаних з штучними інтелектами, та їх здатності допомагати користувачам у розробці хімічної і біологічної зброї.

Однак залишаються суттєві питання щодо безпеки технологій, які стрімко прогресують і проявляють ознаки недостатньої безпеки та точності.

Минулого тижня чат-бот Grok від xAI, заснованої Ілоном Маском, знову підняв тему “білої геноциду” в Південній Африці у відповідь на не пов’язані коментарі.

Компанія згодом пояснила цю дивну поведінку “несанкціонованою модифікацією”.

Олівія Гамбелін, етист штучного інтелекту та авторка книги “Відповідальний ШІ”, зазначила, що приклад Grok демонструє, як легко такі моделі можуть бути зміненими “за бажанням”.

Дослідники та експерти в галузі ШІ повідомили, що тиск з боку ключових гравців переходити до прибутків загрожує тому, що компанії йдуть на зниження якості та уникають ретельного тестування.

Джеймс Уайт, технічний директор стартапу CalypsoAI, який займається кібербезпекою, заявив, що якщо компанії жертвують безпекою заради технічного прогресу, моделі стають менш здатними відхиляти шкідливі запити.

“Моделі покращуються, але вони також більш схильні до доброго виконання поганих запитів”, — зазначив Уайт, чия компанія проводить аудити безпеки для Meta, Google, OpenAI та інших компаній. “Легше обманути їх для виконання небажаних дій.”

Звіт підготовлено експертами галузі.

[:uk]GSC Game World назвала дату виходу сюжетного доповнення до S.T.A.L.K.E.R. 2[:]

[:uk]Advantech представила компактну ШІ-систему для промисловості[:]

[:uk]SpaceX вперше випробувала супутники Starlink V3[:]

[:uk]OpenAI відкрила ChatGPT Health для повнолітніх користувачів у США[:]

[:uk]IBM інвестує $5 мільярдів у нову кібербезпеку завдяки Anthropic[:]

[:uk]Meta стикнулася з труднощами у продажу чогось, окрім реклами[:]

[:uk]Акції Seagate знизилися на 6% через коментарі CEO щодо попиту на чіпи пам’яті[:]

[:uk]Google презентує перший варіант своїх аудіо смарт-окулярів[:]

[:uk]Anthropic впроваджує заходи безпеки для Claude 4, щоб запобігти створенню зброї користувачами[:]

Advantech представила компактну ШІ-систему для промисловості

OpenAI відкрила ChatGPT Health для повнолітніх користувачів у США

Компанія Google випустила дешевші моделі Gemini