ЦОДы будущего: основные тенденции развития
ПредисловиеСовременную жизнь уже невозможно представить без цифровых технологий. И это только начало. Большие данные, искусственный интеллект, электронное правительство, автономные автомобили, умные города… Информационные технологии стремительно развиваются, оцифровывается все что можно, объемы данных стремительно растут, а для их хранения и обработки нужны дата-центры, которые в условиях построения цифровой экономики становятся ключевым элементом цифровой инфраструктуры как отдельных предприятий, так и страны в целом. Попробуем разобраться, в каких направлениях развиваются современные дата-центры, или центры обработки данных (ЦОД), какие используются технологии и архитектуры.
Что такое ЦОД?
На законодательном уровне определением понятия ЦОД занялись совсем недавно. В мае этого года в принятых Госдумой РФ в первом чтении поправках к закону «О связи» дается следующая формулировка: «ЦОД – сооружение связи с комплексом систем инженерно-технического обеспечения, спроектированное и используемое для размещения оборудования, обеспечивающего обработку и (или) хранение данных, и соответствующее утвержденной классификации». Проще говоря – здание или группа зданий для размещения компьютеров, телекоммуникационных систем и систем хранения данных.
По большому счету – не обязательно здание, IT-нагрузку можно размещать в различного рода контейнерах, причем не только на поверхности земли, но и в пещерах, под водой и даже в космосе. Главное – создать условия для надежной бесперебойной работы вычислительного оборудования. Для этого ЦОД должен обеспечить надежную инфраструктуру электроснабжения, отвода тепла и каналов передачи данных. Оборудование должно быть защищено от пожаров и других негативных внешних воздействий, от несанкционированного доступа посетителей и персонала.
В настоящее время стандартный ЦОД – это, как правило, специально построенное (модель greenfield) или реконструированное (brownfield) здание для обеспечения наилучших условий размещения IT-оборудования, рассчитанное на 200-1000 стоек. Классифицируя по размерам, можно выделить микроЦОДы – шкафы с одной стойкой, миниЦОДы – контейнеры с несколькими (как правило, от двух до 10) стойками, малые ЦОДы до 200 стоек и мегаЦОДы – более 1000 стоек. Самая высокая стоимость одной стойки – в микроЦОДе. Самая низкая – в мегаЦОДе, что достигается за счет масштаба, более эффективного использования технических средств и сокращения расходов на администрирование.
МегаЦОД Сбербанка в «Сколково». Фото Николая Носова
По конструкции ЦОДы можно разделить на контейнерные, размещающиеся в одном или нескольких контейнерах, как правило, стандартного размера, модульные – cобираемые из изготовленных в заводских условиях крупных блоков – и стационарные, когда ЦОД строится на месте.
По модели использования ЦОДы делят на коммерческие, когда оператор ЦОДа предоставляет его клиентам по сервисной модели, например, для размещения стоек со своим оборудованием (модель colocation), и корпоративные – создаваемые предприятием для своих нужд.
Возвращаясь к российскому определению, вспомним про требование соответствия утвержденной классификации. Классификация пока не разработана, но на практике большинство ориентируется на классификацию по уровню надежности Uptime Institute (https://uptimeinstitute.com/tier-certification). Соответствующий уровню Tier I дата-центр имеет базовую инженерную инфраструктуру (источники бесперебойного питания, системы охлаждения), но ее элементы не зарезервированы, и выход из строя важного узла приведет к нарушению работы или даже остановке объекта. Самый надежный, соответствующий уровню Tier IV ЦОД имеет полное дублирование инженерной инфраструктуры и без проблем переживет поломку любого узла. Но и стоит такой ЦОД немало.
Впрочем, иногда можно использовать ЦОДы, которые не соответствуют даже нижнему уровню надежности – например, для обеспечения отказоустойчивости на уровне архитектуры или дублирования ЦОДов, как это делает компания Yandeх. Такой подход возможен и в случае, когда остановка дата-центра не критична для выполняемых задач, как в случае использования оборудования для майнинга. Но и здесь нужно заниматься инженерной инфраструктурой, ведь в противном случае дорогое IT-оборудование может выйти из строя или даже сгореть.
Эффективность
Бизнес – это про деньги, а затраты на электричество – основная статья операционных расходов. Не удивительно, что главное направление развития ЦОДов – повышение энергоэффективности. Для ее оценки используется показатель PUE (Power Utilization Efficiency), который определяется как соотношение полной электрической энергии, потребляемой ЦОДом, к энергии, которая расходуется непосредственно IT-оборудованием.
Чем ниже PUE, тем лучше. В идеале – единица, и к этому значению уже приближаются лучшие дата-центры.
Перспективным выглядит концепция OCP (Open Compute Project, https://www.opencompute.org/) – повышение энергоэффективности, снижение стоимости владения оборудованием и ускорение развертывания путем использования специализированных серверов, блоков питания, серверных стоек и систем резервного питания. В соответствии с требованиями стандарта в новых стойках питание серверов стандартизовано и осуществляется с помощью вертикальной шины постоянного тока, которая проходит по всей высоте стойки. Для подачи питания используются силовые полки, что уменьшает количество промежуточных преобразований электроэнергии по пути, повышая общую энергоэффективность ЦОДа.
Значительно снизить энергопотребление системы охлаждения дата-центра можно, используя технологию фрикулинга (свободного охлаждения). Самые эффективные системы охлаждения – с прямым фрикулингом, но они требуют, чтобы температура уличного воздуха даже в летний период была ниже температуры в компьютерном зале. Таких мест немного. Новая технология – «холодные стены», которые за счет большой площади теплообмена позволяют обеспечить выход на режим фрикулинга при более высоких температурах наружного воздуха. При этом снижение нагрузки на компрессор увеличивает его срок службы.
Самая распространенная на сегодня реализация технологии фрикулинга в мире – чиллеры с системой динамического фрикулинга и турбокомпрессорами. При внешней температуре ниже +15°C такие системы работают в режиме фрикулинга, используя холод уличного воздуха, а выше этой температуры включаются чиллеры. Если учесть, что по статистике 82% времени в году в средней полосе России температура не поднимается выше +15°C, то экономия электроэнергии может оказаться весьма внушительной, достигая 45% по сравнению с обычными фреоновыми DX-системами охлаждения.
Ну и конечно много усилий уходит на повышение энергоэффективности самих чиллеров и другого используемого в ЦОДе инженерного оборудования.
Перспективный подход к повышению энергоэффективности – комбинация решений. Например, российская компания ITK вывела на рынок новую линейку систем охлаждения, в которую входят и нетрадиционные решения, так называемые гибридные. Это совокупность жидкостного охлаждения самых важных узлов сервера, таких как центральный и графический процессор, и воздушного охлаждения менее нагруженных компонентов.
Чем выше допустимая температура в компьютерном зале, тем меньше нужно электроэнергии на его охлаждение. Значительной экономии электричества можно добиться, используя «теплолюбивые» серверы, работающие при температуре окружающей среды выше 40°С. Правда, как указывают эксперты, при повышении температуры воздуха срок эксплуатации жестких дисков сокращается, а при динамично меняющейся вычислительной нагрузке необходимо будет устранять локальные перегревы в стойках.
Рекордно низкого PUE можно достичь, применяя жидкостное охлаждение. При погружном (иммерсионном) способе вычислительную систему помещают в диэлектрические жидкости, как правило, минеральные или синтетические масла. При контактном – подводят к охлаждающей материнскую плату пластине трубочки с теплоносителем – водой или водяными растворами. Оба подхода используются при высокопроизводительных вычислениях (суперкомпьютеры, HPC), а иммерсионный – еще и при майнинге.
Окупаемость ЦОДа сильно зависит от эффективности использования площади компьютерного зала. Один из трендов – увеличение нагрузки на стойку. И если совсем недавно стандартом были стойки по 5 кВт, то сейчас все чаще 8-10 кВт. Для высокопроизводительных вычислений (High PerfomanceComputing, HPC) нагрузка на стойку может достигать 30 кВт.
Холодный коридор в ЦОДе «Миран» в Санкт-Петербурге. Фото Николая Носова
Наиболее распространенная система охлаждения – с изоляцией холодных и горячих коридоров. Циркуляция воздуха организуется таким образом, чтобы горячие и холодные потоки не пересекались и не смешивались. Смешиванию препятствует размещение стоек плотно в два ряда, разделенных коридором, установка заглушек и изоляционных панелей. Как правило, холодный воздух подается в коридор – сбоку внутрирядными кондиционерами или снизу через перфорированный фальшпол шкафными кондиционерами, он охлаждает IT-оборудование и возвращается в компьютерный зал. Повышение энергоэффективности и снижение занимаемой в компьютерном зале площади внутрирядных и шкафных кондиционеров – одно из направлений работы проектировщиков ЦОД.
Минимизировать площадь, занимаемую в компьютерном зале инженерным оборудованием, позволяет и использование других подходов к охлаждению, например, уже упомянутых выше «холодных стен».
Экологичность
Напряженная геополитическая обстановка многих заставила забыть о «зеленой повестке», но проблемы загрязнения окружающей среды и глобального потепления никуда не делись. И ЦОДы, особенно мегаЦОДы, должны прилагать усилия для снижения своего негативного влияния на будущее планеты.
Прежде всего – снижать электропотребление, задача, во многом совпадающая с задачей повышения энергоэффективности. Чем ниже PUE, тем меньше энергии расходуется напрасно. Еще лучше – не выводить тепло в атмосферу, а использовать в полезных целях, например, для отопления домов, что уже применяется в одном из дата-центров Хельсинки.
Другая проблема связана с теплоносителями. Применяемый в чиллерах фреон разрушает озоновый слой и способствует образованию «озоновых дыр». Уже есть решения по замене его на аммиак, имеющий нулевой потенциал разрушения озона (ODP = 0) и нулевой потенциал глобального потепления (GWP = 0). Такая технология используется в Schwarz IT Data Center. Но еще лучше, если условия позволяют, совсем отказаться от чиллеров и перейти на фрикулинг. Например, охлаждать оборудование испаряющейся естественным путем водой, как это сделано в ЦОДе Inoventica во Владимирской области, где используется вода из старицы Клязьмы.
Возобновляемыми источниками энергии – ветром и водой – обеспечен норвежский дата-центр, открытый в 2017 году в выработанной шахте на глубине 150 метров близ фьорда Лефдаль. Серверные стойки IBM находятся в контейнерах. Естественным теплоотводом служит сам фьорд, глубина которого составляет более 560 метров.
«Зеленые» технологии дошли и до систем пожаротушения дата-центров. Вместо вредного для людей хладона в последнее время стали применять «сухую воду» – разработанное американской компанией 3M пожаротушащее вещество Novec 1230 или более дешевый российский аналог «Инерген».
Любой пожар можно потушить ложкой воды, только нужно знать, где и когда ее вылить. Альтернативный вариант – защита ЦОДа установками пожаротушения тонкораспыленной водой HI-FOG, когда водяным облаком окутывается не весь компьютерный зал, а лишь место возгорания. Да и вода, даже дистиллированная, намного дешевле хладона. В России такая система пожаротушения уже используется в дата-центрах Moscow One и Moscow Two компании Ixcellerate.
Автоматизация и искусственный интеллект
Эпидемия COVID-19 и последующие ограничения еще раз продемонстрировали, что человек является слабым звеном в системе эксплуатации дата-центра. Мало того, что сотрудник может заболеть, заразить коллег и вывести из строя целую смену, он еще и не в состоянии переварить огромное количество данных, собираемых в процессе эксплуатации ЦОДа.
В диспетчерской ЦОДа Selectel в Санкт-Петербурге. Фото Николая Носова
Службам эксплуатации помогают многочисленные автоматизированные системы, обрабатывающие сигналы и выводящие информацию в адаптированном для человека виде. Но идеальный вариант – «темный ЦОД», когда в компьютерном зале не надо даже включать свет (еще один небольшой вклад в энергоэффективность), так как в нем нет обслуживающего персонала. IT-оборудованием и так управляют удаленно, а вмешательства человека в работу инженерных систем не требуется.
К этому идут, перекладывая все больше функций человека на «умное» оборудование, проводящее самодиагностику и выбирающее оптимальный режим работы. Системы предиктивной аналитики предсказывают выход оборудования из строя и дают сигнал о необходимости его замены. Автоматизированные системы DCIM (Data Center Infrastructure Management) моделируют влияние изменений на воздушные потоки между горячим и холодным коридором, нагрев отдельных зон компьютерного зала и подсказывают, как оптимально разместить оборудование и какие изменения стоит произвести в инженерной инфраструктуре.
Системы с искусственным интеллектом уже используются в ЦОДах и с развитием технологий будут использоваться еще шире. Но пока без человека в большом ЦОДе не обойтись – по крайней мере, он нужен для демонтажа вышедшего из строя инженерного оборудования и установки нового. Уж не говоря о вычислительной технике – серверы в стойку роботы еще не ставят.
А вот «темный» контейнерный ЦОД уже реальность. Летом 2018 года в рамках второй фазы испытаний проекта Natick по производству и эксплуатации экологичных и автономных сетевых систем команда Microsoft опустила на морское дно на глубину 35 метров в прибрежных водах Шотландии контейнер с небольшим дата-центром внутри. К суше он подключался силовым и оптоволоконным кабелем, вместо воздуха в контейнер закачали азот, что исключило возможность пожара. Через два года компания подняла ЦОД и отчиталась об успехе проекта — за это время вышло из строя в восемь раз меньше серверов, чем в аналогичной конфигурации на суше.
Инженеры проверяют серверы и систему охлаждения Project Natick. ЦОД имеет примерно те же размеры, что и стандартный грузовой контейнер. Фото: Франк Бетермин. Источник: https://news.microsoft.com/ru-ru/features/project-natick/
Размещение дата-центров под водой снимает массу вопросов по строительству, аренде и коммуникациям на чужой территории. Кроме того, морская вода используется для охлаждения, что дешево и экологично.
Запускать быстрее
Чем быстрее ЦОД будет введен в строй, тем быстрее начнут окупаться вложенные в него инвестиции. Скорость возведения дата-центров постоянно растет.
В этом тоже помогают цифровые технологии, планирующие и распараллеливающие работы на строительной площадке. Моделирование ЦОДа позволяет не только заранее получить цифровой двойник объекта, но и предотвратить опасные ситуации, например, когда силовой кабель прокладывается по сильно нагревающемуся коробу.
Значительно ускоряет строительство использование модулей, собранных и протестированных в заводских условиях. Такой подход повышает качество сборки. Модульные ЦОДы легко масштабируются и возводятся быстрее стационарных.
Еще быстрее запускаются контейнерные ЦОДы. Они полностью готовятся в заводских условиях – их достаточно привезти на место и подключить к электропитанию и каналам связи. Можно забросить на удаленный объект в любую глухомань вертолетом. Когда в ЦОДе отпадет надобность – вывезти обратно. А масштабирование достигается установкой дополнительных контейнеров
Практически не требует времени на развертывание мобильный ЦОД, представляющий из себя специализированный контейнер, поставленный на колеса. Он изначально подключен к каналам связи и оснащен комплексом информационной, телекоммуникационной и инженерной инфраструктуры.
Ближе к данным
МегаЦОДы снижают стоимость услуг, но в любом месте их не построишь — не хватит достаточной для окупаемости проекта вычислительной нагрузки. С другой стороны, многие данные выгодней не гонять по каналам связи, а обрабатывать на месте в периферийных или edge-ЦОДах. Особенно это становится заметным, если каналы дорогие и медленные, а расчеты надо проводить быстро, иногда в режиме реального времени – тогда в большой ЦОД отправляются только агрегированные и обработанные данные, которые собирают для сводной аналитики с периферии.
Еще одним важным преимуществом edge-ЦОДов является автономность, то есть возможность работы при разрывах связи с облаком центрального ЦОДа. Когда связь восстановится — накопленные обработанные данные передадут в центр.
Типичный пример – edge-ЦОД на буровой на земле или даже на море. Вся оперативная информация нефтяников оперативно обрабатывается на месте. И только самая важная отправляется через спутниковый канал в ЦОД на материк.
Edge-ЦОДы активно используются на предприятиях и заводах с распределенной структурой. В цехе с вредным производством в качестве edge-ЦОДа может выступать микроЦОД с повышенным уровнем защиты корпуса, например, от пыли или влаги. В большом филиале – миниЦОД, в тайге – контейнерный.
Термин edge – связывающий узел на границе сетей – появился в телекоме. В качестве пограничного часто рассматривают и микроЦОД базовой станции. Тем более, что в современной концепции Mobile Edge Computing (MEC) в нем можно проводить компьютерные и облачные вычисления. По сути MEC – это программная платформа для запуска приложений, развернутая на инфраструктуре виртуализации NFV (Network Functions Virtualization) микроЦOДа, который вынесен в радиосеть, например, на базовую станцию. Таким образом операторы мобильной связи могут выступать в роли провайдеров услуг периферийных вычислений.
ЦОДы в космосе
В феврале 2021 Hewlett Packard Enterprise в партнерстве с NASA развернула на Международной космической станции (МКС) edge-ЦОД, доступ к которому можно получить через облако Microsoft Azure. Spaceborne Computer 2 представляет собой ящик с контейнерами, в каждом из которых установлен сервер НРE Proliant DL360 Gen10 для высокопроизводительных вычислений и оснащенная графическим процессором конвергентная edge-cистема Edgeline EL4000.
Spaceborne Computer-2. Фото: hardwareluxx.ru
Расположенные на борту МКС датчики собирают огромные объемы информации, для дальнейшей обработки которой требуется мощный канал связи с Землей. Edge-ЦОД на борту МКС разгружает каналы связи, обрабатывая первичные данные с датчиков, приемников и камер непосредственно на месте, в космосе. Это позволяет вести в режиме реального времени мониторинг состояния здоровья космонавтов и на основе анализа физиологических параметров устанавливать диагнозы. Можно анализировать данные об атмосфере и посылать на Землю информацию для прогнозов погоды или выявления вредных выбросов, следить за движущимися в космосе и в атмосфере объектами, фиксировать запуски ракет.
Графические процессоры помогут в решении задач машинного обучения и искусственного интеллекта, обработки изображений с высоким разрешением, например, фотографий полярных ледяных шапок на Земле или медицинских рентгеновских снимков космонавтов.
Принимавшая участие в работах на МКС компания Lonestar Data Holdings Inc. из Санкт-Петербурга (St.Peterburg), правда, не российского, а из американской Флориды, в апреле 2022 года объявила, что запускает серию центров обработки данных на лунной поверхности. Компания заключила контракт на первых два полета на Луну и сборку на ней первого дата-центра. Lonestar занимается разработкой сервера, а за проект спускаемого аппарата Nova-C и планирование его посадки отвечает компания Intuitive Machines.
Lonestar рассматривает Луну как идеальное место для обслуживания премиум-сегмента глобальной индустрии хранения данных стоимостью 200 миллиардов долларов. Пилотный «лунный ЦОД», который планируется доставить на поверхность нашего спутника и разместить вблизи холмов Мариус в океане Процелларум в вырытой роботами шахте до конца 2024 года, не подразумевает активный обмен данными, а будет служить в качестве бэкапа для наиболее важной и неизменяемой информации.
При удачном исходе эксперимента следующие экспедиции доставят на Луну более мощные серверы, а роботы наладят полноценный обмен информацией между Луной и Землей. К концу 2026 года планируется довести этот показатель до 15 гигабит в секунду.
Дата-центры прочно вошли в нашу жизнь. ЦОДы постоянно улучшаются, становятся все более надежными, эффективными, безопасными и экологичными. Они разные – большие и маленькие, умные и не очень, сухопутные, подводные и космические. Пусть расцветают все цветы – будущее за сетью разных по размерам и используемым технологиям ЦОДов, наиболее соответствующих стоящим перед ними задачами.