Прошедший год можно назвать одним из самых непредсказуемых и неоднозначных в плане развития технологий высокопроизводительных вычислений как в России, так и во всём мире. На его протяжении в отрасли сформировался ряд мощных перспективных технологий, появилось несколько новых трендов. В то же время производительность самых мощных систем мира не претерпела серьезных изменений, зато суперкомпьютеры из середины мирового рейтинга TOP-500 продемонстрировали определённый рост по этому показателю.

Неоднозначным оказался 2014-й и для российского рынка HPC. Несмотря на ряд мировых рекордов, поставленных отечественными производителями суперкомпьютерных систем, а также на позитивный тренд к улучшению позиций России в TOP-500, сложившаяся в стране под конец года общая политическая и экономическая ситуация обещает не лучшие времена в ближайшем будущем.

На пути к экзафлопсным вычислениям: шаг вперёд, два шага вбок

Сравнение опубликованной в конце ноября новейшей, 44-й редакции рейтинга TOP-500 с предшествующими приводит к плачевным выводам: ещё не застой, но рекордно низкий годовой прирост производительности уже налицо. Особенно это заметно в верхней части списка, очень слабо обновлявшейся с лета 2013-го.

Четвертый раз подряд TOP-500 возглавила суперкомпьютерная система Tianhe-2 («Млечный путь 2») Китайского национального университета оборонных технологий с прежней производительностью 33,86 Пфлопс в тесте Linpack — на протяжении последних двух лет она не претерпела изменений. Не изменились конфигурации и уступающих ей почти вдвое и занимающих соответственно второе и третье место систем Titan Cray XK7 (17,59 Пфлопс) и Sequoia (17,17 Пфлопс). Единственным пополнением десятки лидирующих суперкомпьютеров в последнем выпуске TOP-500 стала замыкающая список система Cray CS-Storm неназванного департамента правительства США с производительностью 3,57 Пфлопс.

Начиная с пятой позиции рейтинга мощность систем измеряется уже единицами петафлопс, а начиная с 51-й позиции — сотнями терафлопс. И здесь как раз виден определенный прогресс: в предыдущей 43-й редакции TOP-500 полугодичной давности насчитывалось только 37 систем с производительностью более 1 Пфлопс. Что касается нижней части рейтинга, то в ней прирост производительности оказался минимальным за последние два десятилетия, хотя система, занимающая в новой редакции рейтинга последнее 500-е место, полгода назад была на 421-й позиции.

Любопытен срез по применяемым в современных суперкомпьютерах графическим акселераторам и сопроцессорным модулям, оказывающим значительное влияние на суммарную производительность систем в определённых задачах. Так, первая и седьмая системы лидирующей десятки используют сопроцессоры Intel Xeon Phi, в то время как вторая и шестая имеют GPU компании Nvidia. В целом 75 систем из вошедших в последний перечень TOP-500 работают с применением ускорителей и сопроцессоров (годом ранее таковых насчитывалось всего 62). Полсотни из них используют графические чипы Nvidia, три работают с GPU ATI Radeon, 25 систем выполнены с применением технологии Intel MIC (Xeon Phi).

Процессорные решения Intel, как и раньше, являются платформой для подавляющего числа систем из рейтинга TOP-500 (85,8%). Остальные платформы представлены (в убывающем порядке) процессорами IBM Power, Fujitsu SPARC64 и AMD Opteron.

По странам и континентам

Несмотря на то что самый мощный суперкомпьютер планеты по-прежнему находится в Китае, США остаются страной с наибольшим присутствием в TOP-500 (231 система), но несколько сдают свои позиции (в ноябре 2013-го США были представлены 265 системами). Снизилось и суммарное число представленных в рейтинге суперкомпьютеров из Азии — со 132 до 120 (конкретно китайских — с 76 до 61). Зато увеличилось число европейских систем — со 116 в июне до 130 в ноябре.

В летнем, 43-м рейтинге TOP-500 присутствие российских систем сократилось до минимальных за последние годы пяти систем, при этом лучшая из них, суперкомпьютер «Ломоносов» при МГУ, занимала лишь 42-ю строчку в мировом рейтинге. В последней, ноябрьской редакции рейтинга, ситуация изменилась значительным образом: теперь здесь присутствует девять российских суперкомпьютеров. Новый вычислительный кластер МГУ на базе процессоров Xeon, ускорителей Nvidia K40 и межблочных соединений Infiniband FDR, созданный компанией «Т-Платформы», вышел на 22-е место TOP-500 с производительностью 1,849 Пфлопс.

Впервые появилась в рейтинге и сразу удачно «приземлилась» на 189-е место с показателем 289,5 Тфлопс система российской компании Niagara Computers, выполненная на базе решений Supermicro, процессоров Intel Xeon, ускорителей Nvidia K20 и межсоединений Infiniband FDR.

Однако самые впечатляющие итоги года продемонстрировала российская группа компаний РСК. Количество суперкомпьютеров её производства в рейтинге TOP-500 удвоилось: в новую редакцию вошли сразу четыре системы РСК с прямым жидкостным охлаждением, включая разработанные для Санкт-Петербургского государственного политехнического университета (СПбПУ) кластерную систему «Политехник РСК Торнадо» на базе 14-ядерных процессоров Intel Xeon (658 Тфлопс, 81-е место) и суперкомпьютер на базе массово-параллельной системы RSC PetaStream с процессорами Intel Xeon и 60-ядерными сопроцессорами Intel Xeon Phi 5120D (170,5 Тфлопс, 390-е место). В результате после ввода в эксплуатацию, который запланирован на следующий год, суммарная пиковая производительность нового суперкомпьютерного центра СПбПУ превысит 1,1 Пфлопс.

На 133-й позиции списка находится построенный РСК суперкомпьютер МВС-10П МСЦ РАН (523 Тфлопс), а 190-е место занимает вычислительный кластер Южно-Уральского государственного университета (ЮУрГУ) в Челябинске (473 Тфлопс).

В общем зачёте по числу суперкомпьютеров, входящих в TOP-500, лидерами по-прежнему остаются HP (179 систем, две из них — в России) и IBM (153 системы), при этом показатели обеих компаний снизились со времени предыдущего рейтинга. Замыкает тройку лидеров Cray с 62 системами.

Курс на производительность, уплотнение, экономию энергии

Как бы то ни было, рынок HPC переживает период существенных изменений. Раджиб Хазра, вице-президент Intel и руководитель группы технических вычислений компании, в своём выступлении на конференции SC’14 в Новом Орлеане (США) сформулировал этот процесс следующим образом: «Нынешнюю трансформацию рынка суперкомпьютеров не стоит описывать словами „лучше“ или „больше“. Это скорее фундаментальное изменение модели использования технологий через интеграцию, совместные разработки, совершенствование программных платформ и даже изменение бизнес-модели предоставления HPC-вычислений, в первую очередь в виде суперкомпьютеров как сервиса».

Идёт широкое индустриальное внедрение представленного осенью нового поколения процессоров Intel Xeon. Решения на этих процессорах с поддержкой нового поколения памяти DDR4 демонстрировали на выставке SC’14 многие производители и интеграторы HPC-систем, включая группу российских компаний РСК.

В то же время дальнейшее развитие рынка высокопроизводительных вычислений в Intel связывают с более глубокой интеграцией различных компонентов системы на едином кристалле в рамках развития архитектуры Intel MIC (Many Integrated Core). На конференции SC’14 компания представила новое, третье поколение процессоров Intel Xeon Phi с кодовым названием Knights Hill, выпуск которых будет налажен с применением 10-нм техпроцесса. Чипы Knights Hill будут представлены после поколения Knights Landing, первые системы на их базе ожидаются в 2015 г.

Ожидается, что Knights Landing поддержат более полусотни ведущих компаний индустрии, при этом во многих системах будет использоваться модуль в виде платы расширения с интерфейсом PCIe. Чипы Knights Landing, в частности, будут использоваться в суперкомпьютере Trinity совместного проекта Лос-Аламосской и Сандийских национальных лабораторий, а также в суперкомпьютере Cori Национального научного вычислительного центра энергетических исследований министерства энергетики США.

Помимо этого представители Intel рассказали о дальнейшем развитии архитектуры Omni-Path, способной передавать данные со скоростью 100 Гбит/с и 56-процентным уменьшением задержек коммутации в кластерах средних и крупных размеров по сравнению с альтернативными решениями на базе InfiniBand. Благодаря 48-портовому коммутирующему чипу архитектура эта позволит повысить плотность размещения портов и уровень масштабируемости систем.

В рамках этого проекта Intel запустила программу Intel Fabric Builders Program для формирования совместной экосистемы решений на базе Intel Omni-Path Architecture.

Компания Nvidia представила на конференции новый флагманский двухпроцессорный графический ускоритель Tesla K80, обладающий почти вдвое более высокой производительностью и вдвое более широкой полосой пропускания памяти по сравнению с предшественником Tesla K40. Ускоритель Tesla K80 обладает 4992 параллельными ядрами CUDA, оснащён 24 Гб памяти GDDR5 и обеспечивает полосу пропускания до 480 Гб/с. Новинка поддерживает технологию динамического изменения частоты Nvidia GPU Boost и обеспечивает производительность до 8,74 Тфлопс для вычислений с одинарной точностью и до 2,91 Тфлопс — с двойной точностью.

Сумит Гупта, генеральный менеджер Nvidia и глава подразделения Tesla Accelerated Computing, в беседе об особенностях Tesla K80 подчеркнул, что новый двухпроцессорный ускоритель оснащён пассивным теплоотводом и поэтому позиционируется как решение для серверных систем с централизованным охлаждением. Максимальный выигрыш производительности при использовании ускорителей Tesla K80 уже сейчас можно получить более чем в 280 научных, инженерных, коммерческих и корпоративных приложениях.

Он рассказал также о планах внедрения высокоскоростного интерфейса NVLink, предназначенного для прямой связи нескольких GPU Nvidia в одной системе, при этом процессорная платформа может быть любой на выбор — IBM Power, x86 или ARM. Интерфейс NVLink разгружает шину данных между GPU и CPU и позволяет ускорить обмен данными в 5–12 раз по сравнению с сегодняшними системами, что в целом может обеспечить ускорение расчётов в 50–100 раз в сравнении с сегодняшними рекордсменами.

Широкое внедрение шины NVLink начнётся в 2016 г., когда будет представлена архитектура GPU Nvidia нового поколения с рабочим названием Volta. Именно такие ускорители с топологией NVLink предполагается использовать в будущих суперкомпьютерах Summit и Sierra, установка которых запланирована на 2017-й.

Ожидается, что к тому времени интерфейс NVLink будет полностью готов для эксплуатации в системах с любыми процессорами архитектур IBM Power, x86 и ARM. Кроме того, архитектура Volta и технология NVLink позволят вплотную приблизиться к созданию систем так называемого «экзафлопсного уровня».

Говоря о перспективных разработках, нельзя не упомянуть новый «дата-центристский» подход IBM, выраженный, в частности, в открытой архитектуре OpenPOWER. Каких-то специальных анонсов к SC’14 от IBM не последовало, но сам по себе контракт на сумму 325 млн. долл. с министерством энергетики США на создание упомянутых выше суперкомпьютеров для Ливерморской и Оак-Риджевской лабораторий вполне красноречиво говорит об успехах OpenPOWER Foundation, насчитывающей к настоящему времени более 80 участников, включая Google, Mellanox, Nvidia, Tyan, Samsung, Hitachi, ZTE, QLogic, Rackspace и других.

Японская Fujitsu совсем недавно обнародовала планы по выпуску новых процессоров SPARC64 IXfx, ориентированных на производство суперкомпьютеров с потенциальной возможностью взять барьер в 100 Пфлопс. Ожидается, что 32-ядерный процессор SPARC64 IXfx с двумя «ассистирующими» ядрами и поддержкой межблочной шины Tofu обеспечит производительность порядка 1,1 Тфлопс, что примерно в 3,2 раза выше возможностей нынешнего процессора Sparc64 IXfx при вычислениях с плавающей запятой с двойной точностью и в 6,1 раза больше при вычислениях с одинарной точностью.

В целом же Fujitsu планирует довести развитие архитектуры суперкомпьютеров K «до горизонта экзаскейла», который, по мнению японского министерства образования, культуры, спорта, наук и технологий, будет достигнут уже в 2020 г.

Что касается появления на рынке HPC новых процессорных игроков, таких как ARM или MIPS с их новыми 64-разрядными процессорами, то говорить о масштабных коммерческих программах с их участием пока рановато. И дело совсем не в аппаратных особенностях этих платформ, а скорее в необходимости доработки программной экосистемы, что может занять немало времени.

Ближайшие горизонты

Очевидно, что в момент, когда производительность флагманских систем рейтинга составляет десятки петафлопс, а суммарная производительность всей полутысячи суперкомпьютеров рейтинга насчитывает три сотни петафлопс, обозначать какие-то конкретные сроки появления первой «экзафлопсной» системы преждевременно. Тем не менее серьёзные изменения в верхних строках TOP-500 ожидаются уже в следующем году, и их источником с высокой долей вероятности станут Китай и Япония. Точно нельзя сбрасывать со счетов обновление нынешнего лидера, китайской системы Tianhe-2, результаты тестов которой, правда, появятся не раньше лета.

Серьезную заявку представляют собой и планы Cray по выпуску упомянутых выше суперкомпьютеров Trinity и Cori для научных лабораторий США. В настоящее время доподлинно известно, что обе они будут выполнены на базе сопроцессоров Intel Xeon Phi с переработанной архитектурой Silvermont (Knights Landing), с применением нового поколения процессоров Intel Xeon, оперативной памяти DDR4 DRAM и скоростной межблочной топологии Cray Aries.

В 2017-м на лидерство в рейтинге могут претендовать также упомянутые выше и создаваемые по заказу министерства энергетики США два суперкомпьютера на базе процессоров IBM Power9 и графических ускорителей Nvidia Tesla с интерфейсом NVLink. Пиковая производительность системы Summit для научных задач, которая будет работать в Окриджской национальной лаборатории, составит 150–300 Пфлопс. Суперкомпьютер Sierra с пиковой производительностью более 100 Пфлопс станет основой вычислительной системы в Ливерморской национальной лаборатории имени Э. Лоуренса.

Завершая наш экскурс по ближайшим перспективам суперкомпьютерной отрасли, хотелось бы ещё раз упомянуть возможности отечественной массово-параллельной архитектуры RSC PetaStream на основе Intel Xeon Phi, которой принадлежат вот уже более года непобитые мировые рекорды по вычислительной и энергетической плотности, а также по компактности.

Как показала сопутствовавшая конференции SC’14 выставка, многие ведущие мировые компании в области HPC только сейчас начали всерьёз относиться к возможностям жидкостного охлаждения кластерных систем. В этом смысле разработки РСК опередили многие мировые бренды на годы, поскольку компания изначально практикует охлаждение рабочих блоков «горячей водой». Более того, в суперкомпьютерах RSC PetaStream реализована разработанная совместно с Emerson Electric подсистема питания на базе отраслевого стандарта электропитания постоянным током с напряжением 400 В. Это позволяет значительно снизить сечение питающих шин, увеличить эффективность распределения электроэнергии более чем на 90% и таким образом повысить надежность и энергоэффективность при снижении эксплуатационных издержек.

Помимо этого архитектура RSC PetaStream, как утверждают ее создатели, хорошо масштабируется и может быть использована для моделирования нагрузок того самого «горизонта экзаскейла», включая разработку соответствующих приложений.