Одним из наиболее ожидаемых событий суперкомпьютерной конференции SC’15 в Остине (США) была публикация очередного, 46-го по счёту рейтинга самых производительных систем планеты TOP500. В то же время, этот рейтинг, созданный в далёком 1993 г. на прогрессивном для того времени тесте LINPACK (High Performance LINPACK, HPL), давно подвергается критике со стороны экспертов и потребителей индустрии HPC как тест, не отражающий реальную производительность современных вычислительных систем.

Недостаточную объективность TOP500 в приложении к современным реалиям признали даже его создатели. Два года назад авторский коллектив теста LINPACK во главе с профессором Университета Теннесси Джеком Донгарра предложил новый тест для определения производительности суперкомпьютеров — High Performance Conjugate Gradient (HPCG).

Сам Донгарра в пояснительной записке к последней редакции теста определил роль HPCG как «дополнение к традиционному бенчмарку LINPACK (HPL)». Для тех, кто принимает окончательное решение о финансировании таких дорогих многолетних проектов, коими являются суперкомпьютеры, вопрос оценки производительности — далеко не пустой звук, поскольку эффективность инвестиций в любом случае приходится оценивать тем или иным способом. Не говоря уж о престиже страны, системы которой занимают строчки в общепризнанном авторитетном международном рейтинге.

Основанный на HPCG рейтинг значительно отличается от того, что мы видим в классическом TOP500, однако полную картину рынка всё же пока даёт только он.

Классический TOP500 (LINPACK): верхи не хотят, низы не могут

Изменения в 46-м классическом TOP500 в общем приближении можно назвать в лучшем случае флуктуациями. В десятке лидеров, три года подряд возглавляемой системой Tianhe-2 китайского национального университета оборонных технологий с неизменной (!) за всё это время производительностью (33,9 Пфлопс), обновились лишь шестая и восьмая строчки, отныне занятые системой Trinity для лабораторий Los Alamos и Sandia (8,1 Пфлопс), и системой Hazel-Hen для исследовательского центра HLRS в Штутгарте (5,6 Пфлопс), обе на базе архитектуры Cray XC. Шесть систем списка TOP10 инсталлированы ещё в 2011-12 гг., лидер Tianhe-2 в 2013 г., и только три в 2015 г. Сложившаяся ситуация чётко отражает начавшийся в 2008 г. тренд на снижение активности в десятке лидеров последних десятилетий.

Гораздо сильнее изменения на региональном уровне. Лидером обновлений является Китай, практически утроивший число систем в последнем списке TOP500, и, что не менее важно, представленный большим числом местных производителей HPC. Число суперкомпьютеров, инсталлированных в США, напротив, снизилось до 200 (в предыдущем июльском 45-м рейтинге их было 231), продемонстрировав тем самым минимальное присутствие в списке с момента создания TOP500 в 1993 г.

Число европейских систем в списке снизилось за полгода со 141 до 108, зато системы азиатского региона сделали за то же время гигантский скачок со 107 до 173 систем, при этом 109 из них работают в Китае (полгода назад в списке было только 37 китайских систем). В некоторой степени такой расклад объясняется усилением позиций Lenovo, поглотившей недавно серверный x86-бизнес IBM, но лишь отчасти, поскольку в TOP500 сейчас насчитывается 25 систем производства Lenovo (всего три в предыдущем списке), в то время как другой китайский производитель, компания Sugon, является производителем 49 систем последнего листинга, что превышает как собственно рейтинг IBM, снизившийся за полгода с 23 до 14,9%, так и число двухбрендовых позиций: IBM/Lenovo (девять систем) и Lenovo/IBM (пять систем). Первое место среди вендоров с долей 31,2% по-прежнему занимает HP (155 систем против 178 в прошлом рейтинге), второе место с долей 13,8% занимает Cray с неизменными 69 системами.

В последнем рейтинге TOP500 насчитывается уже 80 систем с производительностью более 1 Пфлопс, хотя в предыдущем рейтинге их было только 67. Суммарная производительность входящих в последний рейтинг систем составила 420 Пфлопс (361 Пфлопс в 45-м рейтинге и 309 Пфлопс годом ранее). Система с производительностью 204,3 Тфлопс, замыкающая нынешний список TOP500, числилась на 369-й позиции предыдущего листинга, в котором производительность последней системы составляла всего 164 Тфлопс. Тенденция последних шести лет, когда ежегодный суммарный прирост производительности в рейтинге TOP500 составляет не более 55% (для сравнения: до 90% в период 1994-2008 гг.), в основном является результатом медленного обновления верхней части списка, что, в свою очередь, можно расценивать как результат разнонаправленных маркетинговых тенденций в сегменте крупных суперкомпьютеров и сегменте средних и небольших систем HPC.

В последний рейтинг вошли 104 системы с сопроцессорными и ускорительными технологиями, полгода назад в предыдущем TOP500 их насчитывалось всего 90. Первый (Tianhe-2) и последний (Stampede) суперкомпьютеры первой десятки рейтинга используют для ускорения вычислений сопроцессоры Intel Xeon Phi, второй (Titan) и седьмой (Piz Daint) оснащены графическими акселераторами Nvidia. Четыре системы из нового рейтинга включают как чипы Intel Xeon Phi, так и GPU-ускорители Nvidia, 66 систем выполнены с применением акселераторов Nvidia, три на акселераторах ATI Radeon, 27 на сопроцессорах Intel Xeon Phi.

Из пяти сотен систем 445 (89%) выполнены на процессорах Intel (86,2% в прошлом рейтинге), при этом чипы IBM Power используются только в 26 системах (38 систем в прошлом рейтинге), а чипы AMD Opteron в 21 системе (4,2%, в прошлом рейтинге — 4,4%). В сумме 86% систем выполнены на процессорах с числом ядер шесть и более, 88% — на восьми- и более ядерных процессорах, 47% на чипах с десятью и более ядрами. Технология InfiniBand по-прежнему остаётся наиболее популярным способом внутрисистемных коммуникаций, хотя её распространённость заметно упала: с 257 систем в прошлом рейтинге до 235 в новом. Напротив, распространённость Gigabit Ethernet выросла со 147 систем до 182, при этом в подавляющем числе случаев — 120 — речь идёт об интерфейсах 10G.

За полгода, прошедшие с момента подведения итогов 45-го рейтинга, из списка TOP500 выбыла находившаяся ранее на 466-м месте одна из суперкомпьютерных систем Санкт-Петербургского политехнического университета — «Политехник RSC PetaStream» (РСК). Второй суперкомпьютер СПбПУ «Политехник РСК Торнадо» на основе кластерной архитектуры «РСК Торнадо» с прямым жидкостным охлаждением (РСК) сейчас занимает 131-ю строчку мирового рейтинга с результатом 658 Тфлопс. Кроме того, в рейтинге присутствуют еще два суперкомпьютера производства РСК — на 256-м месте МВС-10П, установленный в МСЦ РАН, и на 348-й позиции «РСК Торнадо ЮУрГУ», эксплуатируемый с 2009 г. в Южно-Уральском государственном университете (ЮУрГУ) в Челябинске.

На сегодняшний день в TOP500 осталось семь российских систем (полгода назад их было восемь), а самый производительный российский суперкомпьютер «Ломоносов-2» («Т-Платформы») продолжает терять позиции, переместившись с 31-й строчки на 36-ю. Комментируя текущее состояние суперкомпьютерного рынка России, исполнительный директор группы компаний РСК Алексей Шмелев, отметил, что сегодня, в условиях сжатых бюджетов компаний и организаций, инвестиции в довольно дорогостоящие суперкомпьютерные проекты, предполагающие заметные затраты, несколько замедлились, в то же время ни один из ранее запланированных проектов не был отменен.

Если рассматривать TOP500 по вхождению в него систем российских вендоров, здесь можно отметить появление на 50-й позиции новой системы JURECA в суперкомпьютерном центре Юлиха (Германия), созданной компанией «Т-Платформы». На сегодняшний день в TOP500 входит по три системы производства РСК и «Т-Платформы», а также суперкомпьютер «Курчатовского института» (№ 258) и еще одна система производства компании «Ниагара» (№ 346).

Рейтинг HPCG: дополнение вместо противопоставления

Ключевая критика, поступавшая в последние годы в адрес теста LINPACK (HPL), сводится, главным образом, к слишком простым алгоритмам расчётов, не способным равномерно нагрузить систему и все её ключевые компоненты для выявления узких мест вроде подсистемы памяти, или возможности проведения сложных расчётов.

Разъяснить ключевые отличия между бенчмарками HPL и HPCG помог Алексей Шмелев: «Дело в том, что LINPACK выстроен, главным образом, на решении систем линейных алгебраических уравнений методом LU-разложения. Тест HPCG, в свою очередь, использует как матрично-векторные операции умножения в разряжённых матрицах и векторные операции, так и решение систем линейных алгебраических уравнений методом сопряженных градиентов. Проще говоря, математический аппарат LINPACK скорее типичен для систем 10-20- летней давности, в то время как HPCG отражает математические методы, используемые современными высокомасштабируемыми приложениями. Таким образом, HPCG отражает эффективность при работе с реальными приложениями и выполнении актуальных задач научно-образовательными и научно-исследовательскими организациями».

В июне 2014 г. на конференции SC’14 был опубликован первый рейтинг на базе HPCG, тогда в него вошло всего 15 систем из традиционного рейтинга TOP500, год назад, на SC’14, список включал уже 25 систем.

В четвёртый по счёту рейтинг HPCG, представленный в рамках SC’15, вошло 64 системы из разных стран мира, большинство из которых представляют самую «верхушку» классического рейтинга. Это, конечно, ещё не TOP500, но уже вполне серьёзная заявка в качестве нового авторитетного и независимого рейтинга для оценки возможностей современных систем класса HPC. Отрадно отметить, что семь пунктов HPCG представлены суперкомпьютерами из России.

Список систем, ранжированных по тесту HPCG, в большинстве случаев значительным образом отличается от того порядка, в котором они присутствуют в классическом TOP500. Если сравнить абсолютные величины, разница получается просто огромная. Так, лидер обоих рейтингов китайский суперкомпьютер Tianhe-2 под LINPACK показывает производительность 33,863 Пфлопс, в то время как результат теста HPCG составляет 0,58 Пфлопс. Однако ещё более красноречивым инструментом сравнения этих бенчмарков, отражающего производительность систем под различной нагрузкой, является соотношение результатов, полученных в HPCG и HPL, соответственно. У выше упомянутого лидера оно составляет 1,7%, в то время как у занимающего вторую строчку японского суперкомпьютера K института RIKEN он составляет 4,4%.

Комментируя результаты четвёртого рейтинга HPCG, Джек Донгарра отмечает ряд достаточно интересных с точки зрения дальнейших перспектив бенчмарка наблюдений. В листинге наконец-то начали появляться системы класса IBM BlueGene, а суммарное число присутствующих в рейтинге российских систем сравнялось с числом суперкомпьютеров в рейтинге TOP500. Среди пополнений листинга HPCG также присутствуют такие новички TOP500, как выполненная на процессорах Haswell система Trinity департамента энергетики США, занимающая 4-ю и 6-ю строчки в рейтингах HPCG и HPL, соответственно, а также система Hazel Hen на модулях Cray XC40 университета Штутгарта с соответствующими 6-й и 8-й позициями.

HPL vs HPCG: дальнейшие перспективы

Даже поверхностный анализ результатов измерения с помощью нового берчмарка HPCG позволяет убедиться в том, что этот тест значительно более чутко реагирует на изменения производительности вычислительных систем, связанные с изменением их архитектуры или топологии. Так, например, кластерной платформе TSUBAME KFC на процессорах Intel Xeon E5-2620 v2 понадобилось всего лишь заменить графические ускорители Nvidia K20x на K80, чтобы практически удвоить производительность в последнем рейтинге HPCG. Классический LINPACK реагирует на такие изменения в гораздо меньшей степени.

Особенностью только что прошедшей конференции SC’15 можно назвать тот факт, что несмотря на ряд громких анонсов новых многообещающих технологий, их практическое использование в массовых системах мы увидим только в следующем году. Такие интересные решения, как графические акселераторы Nvidia Tesla M40 и Tesla M4, процессоры Intel Xeon Phi нового поколения с кодовым названием Knights Landing, элементы новой коммутационной технологии Intel Omni-Path Architecture, новые интеллектуальные EDR Infiniband-решения Mellanox Switch-IB 2 и ConnectX-4 Lx, подсистемы памяти на базе DDR4 и системы хранения данных на новых поколениях SSD — всё это и многое другое придаст значительный импульс в развитии новых поколений HPC.

Каждая из этих технологий значительным образом влияет на производительность современной вычислительной системы, но учесть всё это разнонаправленное влияние в ключе особенностей современных приложений старый добрый LINPACK, ядро которого написано более 20 лет тому назад, уже не в состоянии. Не исключено, что буквально через несколько итераций популярность нового бенчмарка HPCG перерастёт старый HPL, и уже в ближайшие годы станет основой для TOP500, составленного на основе более справедливых и объективных оценок.