Нові мікросхеми забезпечують швидше навчання, але компанія Google також стверджує, що ви отримуєте більше корисних обчислень за кожен вольт, який ви подаєте на TPU 8t. Вони запровадили концепцію “goodpute” з показником 97 відсотків, що означає менше часу очікування та витрачених зусиль. Завдяки кращому обробленню нерегулярного доступу до пам’яті, автоматичному усуненню апаратних збоїв та реальному моніторингу всіх підключених чипів, TPU 8t проводить більше часу, активно покращуючи навчання моделей.
Після завершення навчання AI моделі переходять в режим інференції для генерації токенів—це процес, що відбувається за лаштунками, коли ви просите модель виконати завдання. Для цього не потрібно стільки обчислювальної потужності, тому використання одного й того ж обладнання для обох етапів життя AI є неефективним. Саме тому інференція відведена для TPU 8i, який спроектований для більшої ефективності при роботі з кількома спеціалізованими агентами, мінімізуючи час очікування. Чіпи TPU 8i також працюють у більших групах по 1,152 чипи, на відміну від лише 256 у старих кластерів інференції Ironwood. Це забезпечує 11.6 EFlops на групу, що значно нижче, ніж у групах TPU 8t.
Чіп TPU 8i має менше вихідної потужності, ніж TPU 8t.
Google утричі збільшив обсяг SRAM на кожному чіпі TPU 8i до 384 МБ. Це дозволяє новим чіпам компанії зберігати більше ключових значень у кеші на чіпі, що пришвидшує моделі з довшими контекстними вікнами. Восьме покоління AI прискорювачів стало першим від Google, яке повністю залежить від власного процесора Axion ARM, що передбачає один процесор на кожні два TPU. У Ironwood кожен x86 CPU обслуговував чотири TPU чіпи. Google стверджує, що цей “повноцінний” підхід на базі ARM забезпечує значно вищу ефективність.
Гра на ефективність
Логічно, що ефективність є основною складовою нової системи TPU від Google. Навчання та запуск передових AI моделей є витратним, а повернення інвестицій неясне. Компанії все ще витрачають кошти на генеративний AI в надії на те, що ефективність колись виправдається. Можливо, нові TPU Google допоможуть у цьому, а можливо, й ні, але компанія внесла помітні вдосконалення.

