Штучний інтелект стрімко входить у світ програмування. Такі гіганти як Google, Meta, OpenAI та Anthropic активно впроваджують свої моделі у процес розробки коду. Проте нове дослідження Microsoft Research показує, що мрія про повністю автоматизовану розробку ще далека від реальності.
Можливості штучного інтелекту в кодуванні
У дослідженні компанія Microsoft перевірила дев’ять сучасних моделей штучного інтелекту, зокрема Claude 3.7 Sonnet (Anthropic) та o3-mini (OpenAI), у спеціально створеному тесті SWE-bench Lite. Дослідники прагнули оцінити здатність моделей виявляти й виправляти програмні помилки. Результати виявилися стриманими – Claude 3.7 Sonnet – 48,4% успішності, OpenAI o1 – 30,2%, o3-mini – лише 22,1%.
Жодна з моделей не змогла вирішити навіть половини завдань, незважаючи на доступ до потужних інструментів налаштування, включаючи дебагери Python.
Основні труднощі виявились не стільки в технологіях, скільки в бракованих тренувальних даних. Моделям важко імітувати послідовний людський процес розв’язання проблем, оскільки в навчальних наборах бракує прикладів детального трасування налагодження.
Хоча результати не приголомшливі, вони відповідають попереднім дослідженням. Наприклад, інструмент Devin, який позиціонується як перший ШІ-розробник, нещодавно провалив 17 із 20 тестів з програмування.
