spot_img

[:uk]NAVI обіграли G2 і вийшли в плей-оф PGL Cluj-Napoca 2026[:]

[:uk]NAVI впевнено пробилися до плей-оф PGL Cluj-Napoca 2026, обігравши G2 Esports з рахунком 2:0 у вирішальному матчі групового етапу.[:]
Головна сторінкаНовини[:uk]ШІ[:]Microsoft досліджує здатність ШІ налагоджувати програмне забезпечення

[:uk]Microsoft досліджує здатність ШІ налагоджувати програмне забезпечення[:]

Штучний інтелект стрімко входить у світ програмування. Такі гіганти як Google, Meta, OpenAI та Anthropic активно впроваджують свої моделі у процес розробки коду. Проте нове дослідження Microsoft Research показує, що мрія про повністю автоматизовану розробку ще далека від реальності.

Можливості штучного інтелекту в кодуванні

У дослідженні компанія Microsoft перевірила дев’ять сучасних моделей штучного інтелекту, зокрема Claude 3.7 Sonnet (Anthropic) та o3-mini (OpenAI), у спеціально створеному тесті SWE-bench Lite. Дослідники прагнули оцінити здатність моделей виявляти й виправляти програмні помилки. Результати виявилися стриманими – Claude 3.7 Sonnet48,4% успішності, OpenAI o1 30,2%, o3-mini – лише 22,1%.

Жодна з моделей не змогла вирішити навіть половини завдань, незважаючи на доступ до потужних інструментів налаштування, включаючи дебагери Python.

Основні труднощі виявились не стільки в технологіях, скільки в бракованих тренувальних даних. Моделям важко імітувати послідовний людський процес розв’язання проблем, оскільки в навчальних наборах бракує прикладів детального трасування налагодження.

Хоча результати не приголомшливі, вони відповідають попереднім дослідженням. Наприклад, інструмент Devin, який позиціонується як перший ШІ-розробник, нещодавно провалив 17 із 20 тестів з програмування.