Arc Prize Foundation представила новий тест для перевірки ШІ

Фонд Arc Prize Foundation, заснований Франсуа Шолле, представив новий тест ARC-AGI-2 на оцінку реальних інтелектуальних можливостей сучасних моделей ШІ. Як показала практика тест виявився занадто складним для більшості провідних мовних моделей. Їхні результати не перевищують 1,3%. Це свідчить про те, що навіть найсучасніші ШІ-системи далекі від справжнього загального штучного інтелекту (AGI).

Що відомо про ARC-AGI-2

Тест ARC-AGI-2 є логічним випробуванням, у якому моделям штучного інтелекту пропонуються головоломки. Їм потрібно аналізувати візуальні патерни (кольорові сітки) та передбачати правильну відповідь.

Головна особливість цього тесту – ШІ не може використовувати “грубу силу” (тобто величезні обчислювальні потужності для перебору варіантів). Замість цього моделі повинні демонструвати адаптивність і справжнє міркування.

Результати найкращих моделей на ARC-AGI-2 виглядають доволі скромно:

o1-pro від OpenAI – 1,3%;
R1 від DeepSeek – 1,2%;
GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash – 1%.

Для порівняння – люди проходять такий тест із середнім результатом 60%.

Попередній тест ARC-AGI довгий час був стандартом для вимірювання інтелекту ШІ, але він дозволяв “обманювати” систему завдяки великим обчислювальним ресурсам. Це підтвердив випадок із моделлю OpenAI o3, яка набрала 75,7% на ARC-AGI, але всього 4% на ARC-AGI-2.

Тест має на меті оцінити реальну здатність ШІ навчатися та міркувати, а не просто запам’ятовувати та обчислювати.

Разом із запуском нового тесту Arc Prize Foundation оголосив конкурс Arc Prize 2025. Його мета – створити ШІ, який досягне 85% точності в ARC-AGI-2 та виконуватиме завдання менше ніж за 0,42$.

[:uk]SpaceX вперше випробувала супутники Starlink V3[:]

[:uk]OpenAI відкрила ChatGPT Health для повнолітніх користувачів у США[:]

[:uk]GSC відповіла на заяви Григоровича та назвала його коментарі некоректними[:]

[:uk]Дослідження Maincast: хто сьогодні дивиться кіберспорт[:]

[:uk]NAVI обіграли G2 і вийшли в плей-оф PGL Cluj-Napoca 2026[:]

[:uk]NAVI стали віцечемпіонами BLAST Slam VI[:]

[:uk]Топ бюджетних смартфонів 2026: моделі, ціни, характеристики[:]

[:uk]Які дрони є на озброєнні у Росії[:]

[:uk]Arc Prize Foundation представила новий тест для перевірки ШІ[:]

Що відомо про ARC-AGI-2

SpaceX вперше випробувала супутники Starlink V3

OpenAI відкрила ChatGPT Health для повнолітніх користувачів у США

GSC відповіла на заяви Григоровича та назвала його коментарі некоректними