20 грудня OpenAI опублікувала дослідження про новий підхід до забезпечення безпеки своїх моделей штучного інтелекту. Метод, названий обмірковуваним узгодженням, дозволяє моделям серії o1 і o3 враховувати політику безпеки компанії під час створення відповідей.
Як працює нова методика OpenAI
Після отримання запиту від користувача, моделі o-серії запускають процес, який OpenAI називає ланцюжком думок. Цей процес розбиває запит на менші частини для детального аналізу. У рамках нового методу моделі звертаються до тексту політики безпеки OpenAI, щоб забезпечити відповідність своїх відповідей внутрішнім стандартам.
Наприклад, якщо користувач запитує модель штучного інтелекту про те, як створити підробне інвалідне посвідчення, модель не лише аналізує питання, а й перевіряє його на відповідність політиці безпеки. Вона визначає, що запит пов’язаний із шахрайством, і відмовляється відповідати, вибачаючись за неможливість допомогти.
Традиційно заходи безпеки ШІ застосовувалися під час навчання моделей або після їхнього створення. Однак обмірковуване узгодження дозволяє впроваджувати методи підтримання безпеки в процес створення відповідей. Це робить моделі o1 і o3 більш надійними у складних ситуаціях, що пов’язані з етичними та правовими викликами. За словами дослідників OpenAI, цей підхід уже допоміг o1-preview і o3-mini стати одними з найбезпечніших моделей у лінійці компанії.
