Nvidia — третья по стоимости компания в мире, отчасти благодаря тому, насколько успешны ее чипы H100 и оснащенные ими продукты. До сих пор Nvidia не могла постоянно выполнять заказы на ускорители, и если кто-то хочет приобрести один из них, ему приходится стоять в очереди несколько месяцев. Поэтому вчера внимание технологического и финансового мира было приковано к презентации Nvidia, на которой было анонсировано новое поколение ускорителей под названием Blackwell.
С глобальной, технологической точки зрения, вчерашняя презентация нового поколения ускорителей Nvidia — одно из важнейших событий года. Хотим мы того или нет, но мир бизнеса и технологий теперь вращается вокруг ИИ в самом широком смысле, и Nvidia — одна из важнейших его составляющих. Сможет ли Nvidia сохранить свое доминирующее положение на рынке? Кому достанутся миллиарды долларов, которые готовят компании, желающие создать или модернизировать фермы ИИ? Было ли разумно инвестировать в Nvidia, или же это была ложь? Какие еще революции ожидают мир благодаря возможностям новых поколений ускорителей? Мы не ответим на все эти вопросы, но с удовольствием расскажем вам, что такое Blackwell.
Дженсен Хуанг использовал термин Blackwell весьма вольно, причем иногда он делал это в контексте одного чипа, иногда в контексте модулей, оснащенных им, а иногда в контексте….. целой серверной стойки. Босс Nvidia не раз упоминал в своей презентации, что когда он слышит слово GPU, то думает уже не о чипе или отдельном ускорителе, а о целых системах. Трудно сказать, сколько в этом правды, а сколько маркетинга, но то, что Nvidia больше не хочет восприниматься как производитель видеокарт или ускорителей, а как поставщик услуг и комплексных решений с масштабом, который может достигать размеров серверной комнаты, — это факт.
Она также прилагает много усилий для ускорения коммуникации между ускорителями, чтобы они могли работать вместе все более эффективно для решения все более сложных задач и, в некотором смысле, составлять единое целое. В данном контексте Blackwell — это скорее название экосистемы, но мы сосредоточимся на основном элементе этой головоломки — чипе Blackwell GPU B200.
Blackwell B200 = 2×H100 + Apple M1 Ultra?
Blackwell B200 — это первый чип компании Nvidia, построенный из микросхем. Во многом его дизайн напоминает то, что мы знаем по…
чипов M Ultra от Apple. Это связано с тем, что B200 состоит из двух кремниевых блоков площадью более 800 мм², изготовленных по техпроцессу N4P компании TSMC, которые расположены на органической подложке, скрывающей соединяющий их мост связи 10 ТБ/с. Другими словами, поскольку Nvidia больше не может создать отдельный GPU большего размера (из-за ограничений литографических машин невозможно сразу создать чип площадью более 858 мм² без использования дополнительных «трюков»), она «склеила» два чипа размером H100.
Blackwell также является первым коммерческим продуктом , в котором используется память HBM3e. В ней четыре стека HBM3e по 24 ГБ на чиплет с пропускной способностью 1 ТБ/с каждый (один такой стек удовлетворит потребности в памяти GeForce RTX 4090!), что в сумме дает 192 ГБ памяти и 8 ТБ/с пропускной способности. На практике, во многих приложениях, это может стать самым важным изменением, внесенным в эти ускорители, поскольку объем памяти и скорость прогона данных через нее часто являются узкими местами, препятствующими масштабированию проектов.
Nvidia очаровывает цифрами
Поскольку Nvidia очень старается поддерживать имидж лидера, она очень тщательно подходит к выбору цифр, которыми хвастается, чтобы они выглядели как можно более впечатляюще. Флагманским примером этого являются разговоры о том, что Blackwell предлагает до 20 петафлопс максимальной производительности в вычислениях ИИ, что примерно в пять раз больше, чем у H100. Пятикратное увеличение производительности за одно поколение звучит просто потрясающе, но есть несколько «но».
Во-первых, цифра 20 относится только к недавно представленным вычислениям FP4 от Nvidia, которые H100 не поддерживает, а B200 может выполнять в два раза больше вычислений с точностью INT8/FP8 за тактовый цикл.
То есть, если приложение может использовать преимущества таких низкоточных чисел (всего 16 возможных состояний!), оно получает хороший «пинок» производительности. Если же нет, то из 20 петафлопсов ему останется «всего» 10.
Вторая загвоздка заключается в том, что, как мы уже говорили, B200 — это два соединенных вместе чипа. Если учесть это, а также тот факт, что Nvidia приводит цифры для чипа с TDP 1000 Вт и сравнивает их с GH100 с TDP 700 Вт, то получается, что максимальная теоретическая производительность одного чипа….. изменилась очень незначительно. Таким образом, сила Blackwell заключается в плотности вычислений (и энергоэффективности, несмотря на космические значения TDP) и оптимизации их использования, а не в вычислительной мощности на транзистор или квадратный миллиметр кремния.
Это подчеркивается тем, что Blackwell Superchip объединяет два чипа B200 и один процессор Grace на одной печатной плате. Это означает, что производительность одной серверной стойки (которую, по мнению Nvidia, следует рассматривать как один GPU), заполненной до отказа чипами Blackwell Superchip, во много раз превышает производительность стойки с модулями Grace Hopper (один чип H100 + один процессор Grace), поскольку кремния здесь просто намного больше.
Поэтому, хотя B200 на уровне одного чипа выглядит не слишком впечатляюще по сравнению со своим предшественником (использование практически того же производственного процесса TSMC не позволило добиться слишком многого), он позволяет создавать беспрецедентные по масштабу системы, способные решать гораздо более масштабные задачи. Это, в свою очередь, может стать ключевым фактором при разработке преемников GPT-4 и конкурирующих решений. Другими словами, новые продукты Nvidia позволяют делать то, что невозможно сделать с помощью конкурентов. И этого должно быть достаточно, чтобы Nvidia сохранила свои позиции. А если Blackwell окажется успешным продуктом на практике, это также может позволить Nvidia обогнать Apple. Потому что, давайте будем честными: Vision Pro вряд ли принесет столько же прибыли, сколько новые ускорители мастера кожаной куртки.