Планета Земля для них замала: індустрія ШІ швидко перетворюється на найбільшого споживача ресурсів

Автор

Валерій Моісєєв

Дослідники підрахували, що для обробки одного запиту ChatGPT потрібно майже вдесятеро більше електроенергії, ніж для традиційного пошуку Google. Але це лише вершина айсбергу. Розвиток ШІ потребує величезних ресурсів. Настільки величезних, що за деякими з них поки що немає ясності, де їх взяти або як створити. Агентство Bloomberg оцінило, що необхідно промисловості ШІ для підтримки працездатності її моделей.

Ще 1000 терават-годин електроенергії

ШІ в основному живе та працює в центрах обробки даних (ЦОД). Попит на електроенергію для них зараз перевищує доступну пропозицію у багатьох частинах світу. У США такі центри, як прогнозується, споживатимуть 8% загальної потужності до 2030 року. Очікується, що до 2034 року щорічне світове споживання енергії ЦОД перевищить 1580 терават-годин порівняно з приблизно 500 сьогодні.

Споживання електроенергії компаніями

Найбільші світові технологічні компанії поспішають закріпити довгострокові постачання. Так, Microsoft та Brookfield Asset Management підписали найбільшу корпоративну угоду про купівлю чистої енергії. Найбільший у світі виробник сонячної та вітрової енергії NextEra Energy уклав угоди про виробництво 10,5 ГВт відновлюваної енергії та її зберігання до 2030 року лише для двох компаній.

Нові та старі джерела енергії

Вугілля, одне з найбільш екологічно шкідливих джерел енергії, як і раніше, спалюється для виробництва приблизно третини світових поставок електроенергії. Природний газ, що також створює викиди, що сприяють глобальному потеплінню, забезпечує 20% електроенергії. Вітряні та сонячні електростанції набирають популярності останніми роками, але без гігантських батарей переривчастий характер відновлюваної енергії є великою проблемою.

Можливо, єдиним надійним цілодобовим джерелом енергії з нульовим рівнем викидів поки що є ядерна енергія. Це пояснює, чому Microsoft уклала у вересні минулого року угоду, яка дозволить знову запустити реактор на атомній електростанції Three Mile Island у США, де 1979 року сталася серйозна аварія. У жовтні Amazon.com підписала три угоди про створення малогабаритних ядерних реакторів, а Google інвестувала і взяла на себе зобов'язання купувати електроенергію у компанії, яка розробляє модульні реактори.

Пропускна спроможність мереж

Лінії електропередачі і підстанції — найцінніші ланки в ланцюжку ШІ. Всі нові ЦОД повинні бути підключені до мережі, яка вже застаріла, перебуває під навантаженням і вразлива за поганої погоди. Потрібно побудувати нові лінії електропередачі та підстанції. Для цього знадобляться трансформатори, які, можливо, доведеться замовляти за кілька років наперед.

Співзасновник та генеральний директор OpenAI Сем Альтман говорить про ЦОД, яким може знадобитися 5000 МВт. Створення енергосистеми, здатної підтримувати таке навантаження в одному місці з нуля в короткі терміни, «функціонально неможливо», каже генеральний директор Constellation Energy, яке володіє АЕС Three Mile Island. Ймовірно, будівельникам ЦОД потрібно подумати про спільне розміщення навколо гігантських, вже існуючих джерел енергії, таких як атомні електростанції.

Потреба у воді

Працюючи устаткування, встановлене в ЦОД, виділяє дуже багато тепла. Занадто висока температура може зруйнувати обладнання та уповільнити роботу систем. Нині у найефективніших системах охолодження ЦОД використовується вода. Bluefield Research підрахувала, що ЦОД споживає понад мільярд літрів води на день. Для розмови з ChatGPT, що складається з 10-50 запитань та відповідей, потрібно 0,5 л води. За оцінками, навчання лише однієї більш ранньої моделі ШІ, що лежить в основі ChatGPT, зажадало майже 760 000 літрів води. Що ще гірше: більша частина цієї води — питної якості, щоб уникнути проблем із довкіллям та відмови обладнання.

Споживання води ЦОД

У Вест-Де-Мойні, штат Айова, мережа ЦОД Microsoft, яку використовувала OpenAI, перетворила технологічного гіганта на найбільшого споживача води в регіоні, що споживає більше, ніж саме місто.

Пропускна спроможність інтернету

Великі мовні моделі, що лежать в основі генеративного ШІ, навчаються, перетравлюючи величезні обсяги даних через інтернет, а користувачі інструментів ШІ, своєю чергою, збільшать попит. Попит на бездротовий зв'язок у мережі AT&T вже зріс на 30%.

За останні п'ять років зростання мережевого трафіку в Verizon Communications більш ніж подвоїлося завдяки людям, які дивляться та транслюють відео. Протягом наступних п'яти років він знову подвоїться через підказки та дані, що вводяться в моделі ШІ. Технологічні компанії так прагнуть закріпитися в оптоволоконних мережах, що телекомунікаційна компанія Lumen Technologies у серпні оголосила, що отримала 5 мільярдів доларів (і веде переговори про отримання ще 7 мільярдів доларів) у новому бізнесі, пов'язаному із задоволенням попиту ШІ.

Нова нерухомість

У світі побудовано або знаходяться на різних стадіях розробки не менше 7000 ЦОД, порівняно з 3600 у 2015 році. І цього буде замало. Попит на послуги ЦОД різко зріс ще до ChatGPT, переважно тому, що компанії все частіше переміщують обробку даних за межі своїх майданчиків і звертаються до хмарних сервісів. І кожна велика країна хоче мати власні домашні ШІ-хаби, що запускає глобальні перегони за інфраструктурою.

Для ЦОД потрібна земля. Інвестиційний фонд нерухомості Equinix купив 81 га для кампусу потужністю кілька сотень мегават. Інша компанія нещодавно підписала договір оренди на 810 га для будівництва кампусу потужністю в гігават. Знайти землю, яка ідеально підходить для ЦОД, складно, що призводить до війн цін. Цим комплексам також потрібні будівельні матеріали та бригади. І якщо матеріалів поки що вистачає, то вже відчувається нестача робітників.

Обчислювальні пристрої

Графічні процесори, або GPU, є робочими конячками для навчання моделей ШІ. Вони призначені для обробки тисяч завдань одночасно. ЦОД може використовувати сотні чи навіть тисячі таких процесорів, кожен із яких коштує більше, ніж сімейний автомобіль. Майже кожна велика технологічна компанія зіткнулася з нестачею цього типу чипів, коли бум генеративного ШІ тільки почався.

Компанія Nvidia підняла ставки для всіх, перейшовши на щорічні впровадження нових технологій. Це ще більше напружило і без того розтягнутий ланцюжок поставок. У листопаді компанія заявила, що її новий продукт Blackwell знову в строю та випереджає прогнози щодо обсягу випуску. Але, що найважливіше, мине багато кварталів, перш ніж у неї буде достатньо, щоб задовольнити попит.

Кремній, сталь, кварц та мідь

Кремній — основа для напівпровідників, мікросхем та процесорів. Китай є найбільшим у світі виробником сирого кремнію та очищених кремнієвих матеріалів, що викликає занепокоєння у міру зростання напруженості між ним та США.

У жовтні минулого року ураган Хелен на сході США порушив роботу двох шахт, на яких видобувається 80% кварцу найвищої якості. Цей мінерал використовується для створення тиглів, в яких кремній нагрівається, плавиться та перетворюється на монокристалічну структуру, яка є основою для виробництва напівпровідників.

Напівпровідники містять золото, срібло, алюміній та олово. Цих металів достатньо, щоби заводи працювали без перебоїв. Але два метали для чипів стали потенційними вузькими місцями: галій та германій. У грудні Китай оголосив про заборону на експорт металів у США — частину технологічної війни, що загострюється.

Мідь є у всьому, включаючи чипи, центри обробки даних, електрообладнання та охолоджувальні пристрої, що потенційно створює умови для зіткнення між вимогами ШІ, відновлюваної енергії та електротранспорту. А ще є сталь, яка має вирішальне значення для будівництва центрів обробки даних та інфраструктури.

Потрібно більше людей

Багато йдеться про робочі місця, які може усунути ШІ. Але самі компанії ШІ сьогодні наймають багато людей. Їм потрібні фахівці з інформатики, архітектори даних, дослідники, математики, програмісти, проектувальники мікросхем, менеджери з продуктів та програм, а також юристи. І це не кажучи вже про армії внутрішніх аналітиків, маркетологів та продавців. На початку листопада Salesforce оголосила про плани найняти понад 1000 співробітників для продажу свого нового продукту генеративного ШІ.

У багатьох цих професіях виник дефіцит талантів на тлі поспіху з набору кадрів для ШІ. Фраза "AI-vies" — гра слів на Ivy League («Ліга плюща») — з'явилася в Кремнієвій долині для позначення кількох компаній (серед них Alphabet, Microsoft і OpenAI), які навчили таланти, і їх тепер всі інші хочуть переманити. Ще більше людей було найнято за кордоном у таких країнах, як Індія, для створення та очищення високоякісних наборів даних, необхідних для навчання систем ШІ.

Більше хороших даних

Генеративним моделям ШІ потрібні високоякісні дані так само, як людям потрібна їжа. Великі мовні моделі навчаються шляхом прийому тексту, розбитого на невеликі одиниці, звані токенами. З цього тексту моделі виявляють закономірності, що допомагають передбачити текст, який має йти за якимось фрагментом. Провідні у світі мовні моделі навчалися більш ніж трильйоні токенів кожна (2048 токенів приблизно еквівалентні 1500 слів).

Нинішнього обсягу даних у світі може бути недостатньо, щоб підтримувати розвиток ШІ так швидко, як хотілося б. Деякі з найпотужніших розробників моделей ШІ, такі як OpenAI, вже стикаються з тим, що стає все важче знаходити нові, невикористані джерела високоякісних даних, створених людиною, для вдосконалення своїх моделей.

Дані мовами, відмінними від англійської, обмежені, а даних, не орієнтованих на західні чи білі спільноти, ще менше. Така відсутність різноманітності загрожує призвести до появи продуктів ШІ, які демонструють упередженість щодо меншин, жінок та інших недостатньо представлених груп населення.

Виробники даних та контенту, від медіаорганізацій до фінансових установ, починають усвідомлювати, що їхня інформація стає все більш цінною для розробників ШІ. The New York Times та великі звукозаписні компанії подають до суду на компанії ШІ за навчання моделі на роботах, захищених авторським правом. У відповідь компанії ШІ заявляють, що навчання на загальнодоступних матеріалах є законно дозволеним сумлінним використанням.

І все ж таки тільки за останній рік OpenAI уклала договори на використання контенту з такими видавцями, як News Corp., Condé Nast, Hearst, Reddit та Axel Springer.

Технологічні компанії експериментують із моделями навчання на «синтетичних» наборах даних, тобто контенті, створеному самим ШІ. Теоретично це допомагає їм задовольняти свою бездонну потребу в даних, уникаючи при цьому юридичних, етичних та пов'язаних із конфіденційністю проблем. Але деякі дослідники попереджають, що моделі ШІ можуть «звалитися», якщо їх навчати на контенті, створеному ШІ, а не людьми. Одна із статей 2023 року про так званий колапс моделей показала, що зображення людей, створені ШІ, стали дедалі більш спотвореними після того, як модель перенавчилася на «невеликих обсягах її власного творіння».