Ввод в эксплуатацию: начало 2016 года.
Технические характеристики
Общее техническое описание кластера Huawei приведено на этой странице.
№ п/п |
Параметр |
Значение |
1 |
Общее количество вычислительных узлов |
30 |
2 |
Количество вычислительных узлов с GPU |
10 |
3 |
Модель процессора (CPU) |
Intel Xeon E5-2680 v3
(mmx, sse, sse2, ssse3, sse4_1, sse4_2, avx2)
|
4 |
Базовая тактовая частота CPU |
2,5 ГГц |
5 |
Количество CPU на узле |
2 |
6 |
Количество ядер CPU на узле |
24 |
7 |
Всего ядер CPU в кластере |
720 |
8 |
Модель графического ускорителя (GPU) |
NVIDIA Tesla K40 |
9 |
Количество GPU на узле |
2 |
10 |
Количество оперативной памяти на одном узле |
128 ГБ |
11 |
Всего оперативной памяти |
3,8 ТБ |
12 |
Объем жесткого диска на узле |
300 ГБ |
13 |
Производительность:
1) Число операций с вещественными числами одинарной точности (32 бита) за 1 такт на 1 ядре процессора (с инструкциями AVX2):
2) Число операций с вещественными числами двойной точности (64 бита) за 1 такт на 1 ядре процессора (с инструкциями AVX2):
3) Пиковая производительность кластера (30 узлов с CPU без режима Turbo Boost):
4) Максимальная производительность кластера на тесте Linpack (30 узлов с CPU без режима Turbo Boost):
5) Максимальная производительность кластера на тесте Linpack (10 узлов с CPU+GPU без режима Turbo Boost и GPU Boost):
|
32
16
28 Тфлопс (64-bit) и 56 Тфлопс (32-bit)
21 Тфлопс (64-bit)
19 Тфлопс (64-bit)
|
14 |
Сеть infiniband |
56 Гбит/с |
Разрешение для вычислений
Для получения разрешения проводить вычисляния на кластере Hauwei необходимо подать заявку на исследование через систему Научного Парка СПбГУ. Процедура получения доступа к ПО более подродно описана в разделе "Информация для пользователей".
Очереди на кластере
Доступные очереди для данного кластера и их ограничения приведены на этой странице
Принцип работы с кластером
Запуск расчетов на кластере производится с пользовательской виртуальной машины РЦ ВЦ (далее ВМ), на которой установлена либо ОС Linux CentOS 6 (далее Linux), либо Microsoft Windows 7 (далее Windows). Вход на ВМ с Linux пользователь осуществляет со своего ПК по протоколу SSH, а на ВМ с Windows по протоколу RDP (логин и пароль, для аутентификации, должны быть получены в нашем Центре). Далее, используя команды менеджера ресурсов PBS Torque 6.0, пользователь ставит свои задачи на кластер (без непосредственного захода на узлы кластера). Оптимальным распределением уже поставленных в очередь задач занимается планировщик Moab 9.0. Во время вычислений домашняя директория пользователя /home/<user_name> на ВМ монтируется на узлы кластера (где производятся вычисления). Поэтому, все выходные данные сохраняются в его домашней директории на ВМ.
Запуск расчетов (на примере ВМ Linux)
1) Пользователь заходит на свою ВМ, которая расположена , по протоколу SSH и сразу попадает в свою домашнюю директорию, откуда и будет производить запуск расчетов на кластере.
2) В начале, необходимо выполнить следующую команду (её можно добавить в ~/.bashrc, чтобы не выполнять перед каждым запуском):
[user_name@host_name ~]$ export PATH=/mnt/rhel-6/huawei/torque/6.0.0/bin/:$PATH
3) Для постановки задачи в очередь выполните команду:
[user_name@host_name ~]$ qsub -q <очередь>@bcm-head -N <название задачи> -l <запрос ресурсов> <пользовательский скрипт>
Параметр <очередь> может принимать одно из трех значений: short, long, gpu. Очереди short и long для расчетов на CPU, очередь gpu - для расчетов с использованием графических ускорителей.
Если не указать параметр "-q", то задача будет поставлена в очередь по умолчанию - очередь <long>.
4) По окончании расчетов в директории, из которой выполнялась команда "qsub", появятся два файла:
<имя задачи>.o<id задачи> (стандартный вывод)
<имя задачи>.e<id задачи> (вывод ошибок при выполнении)
5) Некоторые дополнительные опции команды qsub:
-M <e-mail> - адрес получателя, или список адресов получателей через запятую, которым будут отправлены уведомления. По умолчанию — хозяин задачи. Пример: qsub –M test@cc.spbu.ru
-d <путь> - определяет рабочую директорию для задания. Если не задана, то рабочей является домашняя директория пользователя.
-m aben - события, при которых отправлять уведомления по e-mail. a — в случае аварийного прекращения задачи, b — в момент запуска задачи, e — в момент завершения задачи, n — не отправлять уведомления. Можно указать несколько букв из abe или одну букву n. По умолчанию используется только a.
Просмотр статуса выполнения задачи
Посмотреть текущее состояние очереди можно командой
[user_name@host_name ~]$ qstat [-a|-f|-n <номер задачи>]
Ключи, указанные в скобках являются необязательными. Ниже описаны значения ключей.
-a
-a <номер задачи> <номер задачи>
- просмотр расширенной информации о задаче;
-f <номер задачи>
-f <номер задачи> - показать детальную информацию о задаче (если указан номер задачи, или обо всех задачах, если он не указан);
-
n
<номер задачи>
-n <номер задчи> - показать на каких именно узлах выполняется задача;
-u <имя_пользователя> - показать все задами пользователя <имя_пользователя>;
-q – информация об очередях кластера.
Удаление задач
Удаление задачи выполняется командой qdel <номер задачи>, пример:
[user_name@host_name ~]$ qdel 15145