【阿里巴巴陈炎昌 深度】数据中心商业模式及模块化技术

2020-03-01 757浏览

  • 1.前言 目前国内和业界大多数书籍和文献对数据中心基础设施(机电Facility)讲解大 多都是较为传统套路,其内容逻辑脉络也类似,主要围绕以下几个方面逐步展 开: 数据中心的发展历程/趋势; 数据中心KPI,例如经济性,可用性,能效等; 数据中心一些设计规范和规划原则,包括国际标准和国内标准,数据 中心分级等; 基于数据中心的几个大系统进行细项讲解,例如电力系统,暖通系 统,监控系统等。而电力系统里面又分为发电机、中压配电、低压配电、 UPS和电池系统、接地防雷、照明等; 较好一点的书籍,会在讲解系统设计和概念时,探讨一些系统设计的演变和理 念。这些书籍有不少是厂商资料、规范的堆砌,富有行业真知灼见的并不多。即 使谈及一些技术发展趋势,也更多关注于技术优劣而非技术应用对商业价值实 现。 在此,笔者提出几个问题,读者可以借此回顾自身项目和工作经验并加以思考: 为什么要用这种系统设计和产品设计,而非其他? 每个不同设计和技术背后的目的是什么,解决什么问题,达成什么商 业目标? 国外数据中心到底有什么商业模式和目标,哪些设计和技术能很好满 足这些要求? 笔者查阅很多国内书籍,多数关注讲解技术细节,缺乏谈及设计背后的逻辑思想 和商业价值。也就是讲解技术的同时,并没有把商业市场和技术应用结合的关键 点阐述清楚。正是这个原因,笔者想通过商业模式和价值结合技术应用此文讲述 模块化数据中心技术,希望提供一个更融合的新视角给读者。
  • 2.本文主要讲述几个大方面: 国内外数据中心IDC的商业模式有哪些? 国外技术实践,以及如何实现其商业模式和价值; 国内外模块化数据中心技术应用的差异比较; 本文观点仅为笔者个人想法,不代表所在公司和其他公司的相关技术观点。本文 的技术解释尽可能使用简单的框图,案例图片,不使用详细设计图解释,相关素 材图片均为笔者原创或来自网络上公开图片(网站素材)。因笔者水平有限,文 中若有谬误,请各位专家同行指正,欢迎探讨。 IDC商业模式介绍 1、Colo租赁托管IDC市场 在国内市场上,目前仍然有不少客户是自建数据中心,例如国防和科研机构使用 的HPC高性能计算,金融行业两地三中心,大型企业以及互联网巨头自建IDC。 而国外发达欧美市场,IDC建设主要基本上集中是三类客户,国防和科研实验机 构,互联网巨头,Colo公司和运营商。 第一类的国防和科研实验机构,用于地震探测,石油勘探,气象分 析,天体物理模拟等,这类应用也是超算中心的客户,也包含一些IT科研 企业,例如印度班加罗尔拥有丰富的IT技术人才和研发实验室,那里有不 少自建IDC以满足研究和实验要求。 第二类是互联网巨头,互联网公司的超大规模应用,追求可用性和低 成本,高效率方式,而业界大部分租赁托管IDC标准虽然能满足要求,但 这类客户往往需要深度定制获取更好的成本以及规模效益。 第三类Colo公司和运营商,都是建设数据中心用于租赁生意。而这些 Colo公司面向的客户就非常广泛,涵盖中小企业,金融,政府,互联网, 制造业,交通,能源等等。
  • 3.本文主要关注于Colo租赁托管IDC市场 为什么只谈Colo公司呢?最主要原因是Colo数据中心往往具有非常大的技术应 用普遍性。Colo公司的技术方式必须可以解决大部分客户自建需求才能吸引租 户。对比自建,可以说Colo机房就算不能做得更好至少不能做得更差。 第二类的互联网公司有软件和硬件的掌控力,往往有自身的技术发展规划路线而 自成一派。这类数据中心有很多崭新的技术和设计,但问题在于对其他用户的普 适性不好,例如Facebook数据中心就未必适合谷歌,谷歌也未必适合微软。 互联网和云服务公司自建数据中心,重资产投入前提是有稳定且一定体量业务, 没有规模,成本效应不明显还不如采用定制租赁方式。这就类似公司到底租办公 楼还是买地自建办公楼道理一样。 国内的金融行业实在太有钱,比较任性,可以自建超大规模的数据中心。 而国内的Colo市场,整体机电设计质量,设备品牌,选型,施工质量,运营水 平和标准,与国际同行水平比较仍差距较大。这就导致国内金融行业,特别大型 银行,金融机构,优先选择自建。 笔者实地考察过香港、新加坡、美国、欧洲等数据中心,例如香港NTT将军澳金 融数据中心,里面设计,工艺,运营水平,管理方式,安防策略,都是国际一流 水平。国内还没见过任何类似规模IDC可以达到其水平,即使挑剔和保守的金融 行业,也愿意选择租用Colo机房。 由于欧美都有很多高水平的Colo供应商,客户自然不想投入大量人力物力部署 重资产自建IDC和运营,相反更乐意采用租赁托管的轻资产模式。 云计算发展,笔者相信会挤压一部分Colo租赁托管市场。对于资产的投入和管 理,IDC租赁托管,服务器主机托管,甚至云计算,笔者做了一张图进行类比, 虽然不太准确,但能让读者更直观理解各种外包租赁托管服务模式大体差异。更 清晰准确地,读者可以上网查阅各自定义。
  • 4.图1 外包租赁托管模式比较 2、Colo租赁托管IDC的销售模式 抛开主机租赁托管和云计算不谈,目前国际上Colo主要集中有两大主要销售模 式:批发和零售。 其实Colo租赁托管IDC,本质上就是房地产商业模式。 笔者用一个日常生活例子并附上图例加以说明
  • 5.图2 IDC销售模式 一个商业办公楼宇,业主(建设方)有3层,可以用于出租给商户来赚钱。其中 第三层专门出租给各种小商户(例如衣服店,皮具,鞋等),第二层专门出租大 商户(例如大超市,电影院),而第一层,由一个大客户承包一层,然后自己再 根据里面布局情况重新分配卖给其他小商户(例如美食广场,一个大承包商租了 场地,然后其再分包给下面很多餐饮店,自己做分包管理)。 所以: 零售型: 在Colo租赁托管IDC里面,面向零售业务为主的,就会出现租赁几个机架,或者 十几个机架,甚至半个机架这样的散户。这些散户通常没有专业技术人员,服务 器和网络设备也少,人员不在本地,需要依赖Colo公司的一些远程协助服务。 这些Colo公司除了有机电运营团队外,往往还有一支懂IT和网络的团队以满足 散租客户需求。
  • 6.批发型: 面向批发业务的,Colo公司一般只有机电运营团队,租户通常会有驻场工程师 能够做IT和网络运营。随着Colo的发展,在国外,批发和零售的Colo供应商之 间不断竞争,导致其容量分界线越来越模糊,服务交错组合趋向一致。 业界比较多人认同的是,200~250kW可以是零售或批发的分界线。 全球范围内,典型的Colo零售和批发业务都具备的公司是Equinix,批发业务为 主的是DRT。 批发转零售方式,香港是典型例子。 香港有不少物流园区,地主本来只是简单的出租仓库空间就可以,后来地主发现 与其做仓库,不如接入电力和网络后变成IDC做土地租赁更赚钱,于是乎就把场 地以长期合同租给一个Colo公司去建IDC。 接着,Colo公司建好,自己也没有那么多人力和能力服务众多小客户,还要养 IT、网络的技术人员。于是Colo公司再找一个合作伙伴,能够把一个或多个 Datahall机房包间整体出租,交由这个合作伙伴去做零售业务,这就是批发转零 售的模式。 如此一来,Colo公司就省心省力,只需管好Datahall内外的机电设施,机架部 分就交由合作伙伴服务。 这个合作伙伴,跟Colo公司之间通过长期机房租赁合同以及服务背靠背协议来 保障。国内运营商在香港就有通过这种模式对外提供服务。 最后一点就是闲置容量转售。在绝大多数情况下,零售客户功率密度通常较低, 实际场景经常是2~3kW机架功耗,所以Colo机房为了进一步提升机架出租量和 降低成本,会和客户约定是非专属电力和制冷容量,允许共享。 意思就是,例如A租户说需要3个5kW机架容量,但实际使用只有10kW,Colo 机房可以把剩下5kW电力和制冷容量卖给其他租户。而批发用户,通常要求是 专属容量,即使有多余的容量,也不允许转售。 3、Colo租赁托管IDC的计费模式
  • 7.目前Colo的计费模式主要两大类,包电包租和租电分离。 包电包租,就好比酒店,电费租金一个价全包; 租电分离,就好比租房,房租和电费分开支付。 在租电分离的计费模式当中,大体分为三种: 以测量的IT能耗kWh,乘以按照预先约定的PUE,再乘以市场公开的 标准电费(当地供电局标准收费)。有些精确对成本控制的IDC,往往会 给出PUE和负载比例的约定,例如约定50%以下负载时PUE是1.8,超过 50%负载PUE是1.6,这样不但可以让租户有冲动租用更大容量,或增加部 署速度,同时可以通过约定低PUE体现商务优势。这种计费模式下,Colo 公司通过更节能的设计,只要实际运行PUE比约定PUE值低,就能够在电 费上获取一定收益。 以测量的IT能耗kWh,直接乘以约定的电费基准。这里约定的电费基 准,是因为Colo公司建设了整个IDC,把机电设施建设成本,运营成本和 PUE成本都打包进去电费基准值计算。这个基准值肯定高于供电局电费标 准值。这种计费模式可以规避约定PUE的节能问题,毕竟有时候,糊涂账 不是一件坏事。 以测量的IT能耗kWh,以及总的IT能耗kWh(UPS总输出能耗), 得出租户IT能耗比例,用这个比例去乘以Colo公司当月的总电费单。这种 是最激进租电分离计费模式,也就是电费一分钱也不挣钱。 即使最激进的电费计算模式,有时候未必是最省钱。 例如采用第三种计费模式,老旧的IDC,其PUE就可能有2.0,导致整体电费成本 高。就算Colo公司不想通过电费赚取利润,也不代表每机架的总成本(电费租 金)一定便宜。最后,企业从财务支出角度选择这个IDC,必然是看总成本。 到底用包电包租还是租电分离的计费方式,既要考验Colo的技术运营水平,也 要考验客户的自身需求清晰程度,最终体现在财务支出和收益计算上。 例如,笔者就没见过国内有哪个colo机房,可以在多散户和租户的情况下,利用 电能仪表测量,以及能源管理软件对多租户进行独立计费,有准确的报表对租户 进行收费,还能分析发现是否用户有瞬间用超负荷用电情况。 国内绝大部分Colo,管理软件能力和硬件设计都无法有效协同达成这个功能。 对PUE的考核,软件功能往往没有成为国内Colo公司的关键竞争力之一,既然
  • 8.水平不足,那只好算一笔糊涂账,以包电包租形式计费,博弈的心态寄望于租户 不用那么多电,成本可以弥补。 对于租户而言,如果对功耗水平清楚,就可以对比哪个计费模型成本更节省。 在租电分离计费方式的盈利手段上,由于需要精确核算租户成本,国外Colo除 了投入能耗监测的硬件和管理软件,还通过节能手段尽量降低PUE以提高竞争力 和利润率。 欧美很多国家在电力市场上是开放市场,即发电价和上网价分离,Colo公司还 可以对发电厂进行招标采购,这个有点类似于网络互联互通。但国内电力市场价 格发电和售电开放还处于试探性初步阶段,国内电力市场价格并非公开透明,有 特殊关系和背景的公司就通过各种渠道获取更低的电价基准以取得成本优势。 这个矛盾导致很多国内公司宁愿投入精力获取低电价基准,而不愿意投入精力改 善能耗和运营。 例如10000kWh的IT耗电,平均PUE是1.6,电费基准0.5元/kWh;而另外一个 是PUE=1.4,电费基准是0.6元/kWh; 结果是 机房A电费 10000*1.6*0.5=8000元 机房B电费 10000*1.4*0.6=8400元 不要小看这5%的电费成本差距,省下来就是利润提高2~3%,同时从1.6的PUE 节省到1.4是很大的进步,需要技术团队付出巨大努力,但这些努力,在财务上 的结果比较,还不如降低电费基准值来得省时省力。 根据笔者观察,国外追求极致PUE的Colo公司并不多,大多数公司由于SLA的压 力,追求相对节能而非极致节能。理解这个相对节能和绝对节能概念,可以从成 本模型上面分析。 例如年平均PUE=1.4是相对节能,PUE=1.3是极致水平,这里相差电费差异是 7%。
  • 9.如果初期用电规模大的IDC,在外国可以进行招标,承诺一个较大的供电量(如 10MVA用电量),从而获得比市场基准值更低的电费,通常可以有10~20%降 低。这样一来,相比应用节能技术,通过规模和电力市场政策更容易获得财务收 益。 同时很重要一点,节能技术往往初期投资成本较高,如果无法快速转变为租金下 降就难以形成竞争力,还不如采取相对节能,快速积累用户群,然后降低基础电 价的策略。 所以,Colo公司在节能技术应用上没有大家看到互联网公司等激进,不能只从 技术分析,也要从市场和商业上考虑。 4、Colo租赁托管IDC服务协议 Colo租赁托管IDC的服务协议一般称为SLA(service level agreement),在 SLA里面,会详细界定各种服务细则要求,对应承诺,违约罚款。 以下为一般SLA表格内容 类别 具体承诺定义 违约罚款条约 电力可靠性 环境可靠性 网络互联互通可靠性 相关服务项响应 其他附加条款 下图为Equinix的全球标准SLA,以及Internap公司官网上的SLA标准文档摘录
  • 10.图3 Equinix的Global SLA规定 图4 Internap的SLA和罚则 SLA条款里面,每个类别都可以有不同约定条件: 电力可靠性,有的Colo公司承诺5个9,有些承诺100%,有些承诺三 个9(对应Tier3的标准)。有些IDC是按照Tier3设计,甚至获得Tier3的认 证,但Tier3的标准里面可用性理论值是99.982%,所以其SLA也约定3个 9。当有用户说一定要4个9时,这些Colo公司通常会要求增加租赁成本升 级到Tier4机房等,这总有讨价还价的地方。例如Equinix,其全球标准的
  • 11.SLA,就是可以提供5个9的电力,哪怕只有一路市电,因为Equinix已经做 到全球的运营统一标准,设计各方面标准化,优异的IDC水平塑造了品 牌,其承诺的可用性可以令人信服。 环境可靠性,会规定冷通道的温度范围,通常为4个9的可用性。例如 正常运行22℃±2℃,市电断电时候温度不超过30℃等。 互联互通,主要是多个运营商接入的网络可用性。 服务响应,包含每个月/报告,故障修复时间,远程响应时间等。国外 绝大部分的Colo公司,都会每个月提供报告,报告内容详细给出机架能 耗,冷通道温度曲线。如果有需要,还可以提供详细的功耗,温度数据。 SLA可以很大程度反映IDC的技术水平。 例如服务响应的月度报告,这在国内几乎难以看到。 主要原因有,国内IDC软件的报表,管理分析功能做得太差,国外都基本使用 BMS楼宇自动化软件,也有EMS能源管理平台。国内动环软件多半靠着哗众取 巧功能,夸张的市场营销手段,对国外DCIM软件照猫画虎功能宣传,连监测报 表功能都未能做好(所谓报表更多是Excel数据表,然后需要人手二次做大量数 据筛选,分析),更别说控制了。做专业应用类软件不像硬件,容易横向比较参 数和从其他用户了解使用情况。同时国内设计院、使用方对软件重视程度很差。 笔者曾经做过一些调查,发现设计院里面负载弱电监控的技术人员,基本没有使 用/操作过任何市面上的软件。可想而知,软件是一个多么混乱的市场。 有趣的是,国内运营商往往会以运营数据不对外公开为由不提供。其实国外绝大 多数Colo公司观点都认为,只要是租户自身相关的合理数据,都可以提供,不 公开其他合租用户数据即可。本身在租电分离的计费模型里,就需要公开租户机 架功耗值进行计费。如果这个租户用电容量独占整套UPS,即整套UPS的输出只 供给1个租户,那么Colo公司还会提供UPS的运行参数。 一些优秀的Colo公司还有一套对内对外的运营管理平台。用户可以通过网页创 建需要远程服务(remote hand)工单,这类工单包括IT设备和网络设备一般维 护和操作。在服务平台上,用户通过工单编号随时跟踪工单处理状态。用户还能 够查看自身租赁机架的功耗和温度等运营参数(月/日平均值,最大/最小瞬时 值),安防门禁访问记录,视频记录,自助式导出相应运营报告。进一步,服务
  • 12.平台能够把IDC基础设施运营期间的变更,流程工单和用户透明,包括UPS,空 调,冷机,发电机,配电柜日常运维。当然,这些服务都有差异化定价和收费。 关于服务和自动化运营管理,是一个很大的内容,这部分和本文模块化技术关联 度不大,在此不深入讨论。笔者也提出一个观点,这类运营平台无论叫什么名 字,主要解决运营信息对称(对内对外),流程质量管理。这些都依赖于运营和 服务模式,国内这两点恰恰是并不重视且发展落后,软实力重视度不够,能力上 不去,软件平台也就难以发挥作用。简单一个例子,发达国家制造业自动化水 平,机械和自动化软件水平和发展中国家相比差异巨大,工业4.0是需要强大工 业基础发展起来。 5、Colo租赁托管IDC的产品服务方案 本章节笔者会用DRT公司作为典型案例,讲解Colo公司典型产品服务方案。 DRT官方介绍可以参考下面视频链接:http://v.youku.com/v_show/id_XMTM5OTMyODY3Mg==.html?from=y1.7-2 DRT公司提供目前提供几种产品服务方式,包括: TKF模式,Turnkey Flex;这种模式相当于精装房的交钥匙模式,租 户可以直接拎包入住,里面家电齐全。这是绝大多数Colo公司方案,即所 谓White space的Datahall,机房包间已经安装好配电和空调容量,用户 只需要把设备运进来上电就可以用。所以,我们经常看到国外Colo机房是 下图的情况。
  • 13.图5 DRT北美Data hall 读者或许会奇怪为什么国外Colo数据中心很多都不做通道密闭,也没有机架。 实际上,对于TKF模式下,Colo公司面对的各色各样的客户,不是每个客户都是 采用标准尺寸设备,有些客户是想把自己原来机房的机架和设备搬迁进来,有些 客户有IBM的小型机,EMC的存储,思科的核心交换机等。 可以设想,如果一个机房里面有IBM、EMC、Cisco、HP、Dell、Oracle、 APC、Rittal、CPI各种机架摆一起,尺寸和结构不一,做通道密闭又谈何容易 呢?何况有些客户的租期有1年或3年,租期满了设备搬走有新租户的新设备进 场,新设备尺寸如何又是另外一个问题。 国内Colo多数做通道密闭,主要原因在于,有钱买IBM小型机、EMC高端存储 等客户,对数据中心基础设施成本不太敏感,面对国内Colo公司IDC整体情况, 基本都会选择自建而不租用。 实际上,通道密闭对国外Colo公司来说都不是标配。如果租赁用户有要求, Colo公司都愿意共同商讨提供,只不过租户需要付一次性投资费。因为这种特 殊需求不是其他租户都必须,额外付费也理所当然。一些特殊要求包括机架内部
  • 14.选择带端口监控的机架PDU,增加金属隔笼Cage,机架带独立刷卡门禁,顶部 增加摄像头、环境传感器等。 PBB模式,Power based building/Powered shell。这种模式相当 于住宅毛坯房,房子一般有进户的总电气箱和主开关,但里面家电、家 具、装修都没有。 PBB模式通常是Colo公司租下/拥有物业权,和容量规模大的客户签订较长的租 赁托管合同。机电设施可以由租户自行设计和建设,也可以由租户出设计理念, 剩下设计和建设,投资交由Colo公司。 国内这种模式对于互联网巨头来说,是比较普遍。这个模式最大好处是,用户可 以较大程度定制租赁,主要局限有3点: 第一:定制情况下,当租户退租后,原来基础设施投资改造成被其他租户广泛接 受的标准; 第二:当租赁空间仅有一层楼而非整栋楼时,一些大型基础设施通常是共享。例 如不同层的租户会共用冷冻站,中压发电机组等,如果想独立自己一套基础设施 进行单独计费核算就变得非常困难; 第三,建筑物理结构固定,这样很难采取更深度定制,例如一些需要建筑结构匹 配的制冷方案。 下图是PBB模式和TKF模式的差异
  • 15.图6 TKF和PBB模式 BTS模式, Build to suit/Buy to suit。这种模式和PBB模式相比, BTS模式最大优势在于整个建筑都可以定制,可以说是从空地开始就定 制,甚至Colo可以和租户参与选址,然后Colo买地进行投资建设,最后租 给客户。 例如DRT在英国伦敦给Rackspace建设的数据中心,就是使用BTS模式。这种模 式在国内也有一些案例,结合国内资本市场特点,甚至还发展出其他衍生商业模 式和盈利手段。 网络和云服务互联,国外(特别是欧美等发达地区)和国内有一个显 著不同,就是有运营商中立,不仅仅有传统电信运营商,还有其他宽带业 务提供方如裸光纤。 简单来说,在中国,Colo机房并非运营商中立,就如家里的宽带,不能用着A运 营商的网络,第二天就想转到B运营商付费而不做任何硬件改造。 目前DRT和Equinix这些全球顶尖Colo公司,互相比拼不再是谁家的机电设计如 何优秀,管理运营水平突出,从机电建设和运营角度来说,各有千秋。
  • 16.IDC机电设计差异化的所能获取的竞争力已经不再成为独特优势,更关键的资源 聚焦在网络提供商接入,云计算互联平台(Colo租户可以随时接入公有云组建 混合云)。 大家不妨登陆Equinix主页,可以看到从最早建立自身优势的IX(internet exchange互联互通),到Cloud Exchange,让租户可以同时接入不同公有云, 还可以建立混合云等方案,极大提升用户粘性和丰富IaaS层的解决方案。 这些Colo公司利用自身租户大基数的优势,吸引大批网络供应商接入其数据中 心。互联互通的平台,机电基础设施,再生能源,自动化运营和租户服务平台等 形成Colo公司综合竞争力。 顶尖Colo公司正如奔驰,宝马这些豪华车,今天关注重心更多是车联网和自动 驾驶,纯粹比拼硬件层面已经难以形成更大竞争优势。对Colo而言,毕竟设计 方案和设备技术都可以花钱购买。 笔者认为,国内数据中心,抛开互联互通的问题,投资承建合作的方式和国外差 距并不大,特别国内互联网巨头有好些PBB模式,BTS模式也有少量案例。但是 从整体设计,建设,运营链条看,国内外就有很大差距了。这些差距主要体现在 设计上的细节,运营自动化软件,建设选用设备质量,施工细节,施工管理,运 营流程优化等。 下一章节,将会给读者讲解国外数据中心系统模块化设计做法(Tier可用性层级 模块化、功率密度模块化、空间布局模块化、机电容量模块化),如何匹配本章 提到的商业模式,计费模式,实现商业价值。 国外模块化技术实践和商业价值 上面介绍了较多Colo行业市场,商业模式。 本章节要主要讨论,国外到底如何设计模块化数据中心,实现之前提到的商业模 式,收费模式对应的价值。
  • 17.Tier灵活性——绝大部分的IDC设计,都是按照Tier3设计,但有些客 户也许只需要Tier2,有些则希望Tier4。大型Colo机房设计时候,通常会 给精密空调,以及冷冻水泵的预留UPS供电回路,在必要时增加UPS即可 从Tier3升级到Tier4。而从Tier3降级到Tier2,可以做成N 1的UPS架构, 具体设计方式有多种。但灵活的Tier核心目标是,满足不同用户对不同可 用性需求,只要在机电系统拓扑上能够升级或降级,Colo公司就能够提供 差异化服务而对不同tier要求的用户定价收费。 图7 不同的Tier电气设计 例如上图是典型Tier3的供电拓扑,要降级成Tier2,既可以通过去掉一侧 UPS(灰色虚线),利用UPS外置手动旁路做一路市电一路UPS系统,也可以 UPS输出配电柜做低压母联成双母线。 Datahall容量颗粒度——到底一个data hall里面有多少IT容量为合 适,对于不同Colo公司有不同的看法。 基本上,目前Datahall容量分配会有几个原则,基于UPS并机系统容量,基于变 压器和发电机容量,基于最低机房模块机电成本,基于零售或者批发模式容量。
  • 18.例如DRT在北美用1.2MW作为一个Datahall容量,其逻辑是每kW成本最低,同 时刚好是600kW(750kVA)的UPS两台并机形成 2N(N=1 1)高可用性系 统。至于上游变压器容量是2000kVA,抛开IT,剩余电力设计用于制冷系统, 使用低压发电机N 1。 图8 DRT的POD布局图
  • 19.图9 DRT的每个POD机房内部 DRT北美比较多采用的就是上面布局,两侧放置列头配电柜和精密空调。这种方 式在国内很常见,往往被称为传统数据中心。但实际上,DRT就是用这种传统的 数据中心设计,优化制冷系统和配电系统,设备选型,在北美可以做到年平均 PUE<=1.3并且在租电分离计费模式中承诺PUE。 上面图中,DRT的模式以批发为主,以1200kW的IT容量切割每个机房模块,机 房模块的机电都可以做到独立,这样使租户独立性更好。DRT在北美Ashburn的 数据中心园区,就是按照下图的机房模块POD概念进行设计建造,20X为独立机 电设施的机房模块。 图10 Ashburn数据中心平面图 上面提及DRT设计容量颗粒度,很重要前提是自身业务是以批发为主,不是以零 售为主。 零售业务为主机房Datahall机架上架密度通常较低,散租用户多,管理麻烦。如 果大容量的机房租给散租客户,很容易造成整个机房的电力容量,空间都被零星 客户占据而浪费。大租户很多时候不希望和一堆散租户混在一起。从Colo公司 角度说,最终就是一门生意,单个机房大容量去做零售客户,可能租金收入和建 设成本相比盈利和商业价值很低,所以大容量机房更适合做大客户批发业务。
  • 20.当然,北美因为大多是大一层或二层设计,整个建筑面积相对容易做成机电系统 和机房模块独立。在欧洲或者亚太,由于土地面积受限,建筑容积比问题,通常 数据中心都会建造成多层。这些多层的数据中心,受制于制冷系统而难以做到每 个机房模块的机电都是独立。因此,这类数据中心多数情况下会做集中冷冻站给 每层机房进行制冷。 例如,10MVA的电力的分配可以如下图: 图11 双路10MVA电力进线分配 国外多数设计为低压发电机,而非采用中压发电机,具体发电机配置可以做N 1 或者2N。其供配电和制冷系统对应负荷关系如下图所示。
  • 21.图12 电力和制冷容量对应图 二层机房的电力容量是2000kVA,可以分为好个小机房模块,也可以一个大机 房模块。具体容量和面积划分,完全可以自由灵活定义。下图就是直接一个大开 间的典型布局方式,当然也可以分成4个500kVA容量。 图13 大开间Datahall布局图 笔者参观不少国外数据中心,通常Datahall都为毛坯层,只是做了每层冷冻水管 和变压器,UPS房,电池房都没有。这样可以有最大灵活性用于批发或零售业务 模式。
  • 22.例如2000kVA,完全可以划分出2个1000kVA房间,一个做零售业务,一个做 批发业务。如下图所示: 图14 变压器电力容量切割和业务模式 合理的设计,可以匹配不同用户需求,例如2000kVA的电力容量,可以拆分成 部分Tier2,部分Tier3,批发用的机房模块独立UPS 末端空调形式,如下图所 示:
  • 23.图15 混合Tier和混合业务 功率密度模块化——绝大部分设计,都是在一定电力容量下,做功率 密度机架分区,或者只要总功率不变,功率密度可以随意组合。 例如同一个Datahall内,有低密度区和中高密度区,这种设计国内也有一些案 例。国外也有一些设计,采用电力和制冷与物理空间组成矩阵式做法,就可以做 到功率密度模块化。例如下图:
  • 24.图16 矩阵式机电架构 机电系统独立性——就如上面提到容量颗粒度规划,往往针对那些有 特殊要求的大型租户做PBB模式。 例如下图是土耳其Zenium公司的IDC,其提供的解决方案,就是以PBB模式在 一层机房空间里面分割出多个独立区间,每个区间可以选择单独的UPS系统,制 冷系统或者公用集中机电系统。
  • 25.图17 Zenium数据中心外观图 他们的设计允许租户在楼顶做单独冷冻水制冷系统或风冷制冷系统,具备极大的 灵活性和系统独立性。一个楼层分成若干个房间,可以令租户独享门禁安防权 限。在给定电力容量和空间后,结合PBB模式的模块化设计理念使得Colo公司 可以差异化更多解决方案。 可以想象的是,这种PBB模式很大程度上相当于自建,但又可以用租赁的轻资产 方式获得。 例如一层机房有多个模块,每个模块都可以拥有自己完整独立的机电设施,同时 也可以使用公用机电设施。如下图,每个房间的精密空调都是独立。
  • 26.图18 机房独立的制冷系统 机电独立性好处显而易见,问题在于租赁托管合同基本需要签订较长期协议,用 户必须有较为长远的业务发展计划才合适。很多时候独立机电系统在通常情况下 都要比公用机电系统来得昂贵,除非租户可以接受更低的Tier等级和建设标准。 设备分区和布局——国外Colo机房分区,更多考虑是设备安全,运营 方便。
  • 27.例如基本上把精密空调和列头柜放在两侧,有的设计有专门的空调维护间,有的 通过在数据中心内部设立钢笼隔起来。这样可以确保机电工程师维护设备时候, 不能进入租户的服务器和网络设备区域。 钢笼隔离如下图所示
  • 28.图19 钢笼Cage示例 同样地,国外对于消防,环境控制也非常注意。铅酸电池房由于会有氢气存在, 需要和UPS独立房间,同时有监测氢气的设备。 发电机技术——国外基本采用低压柴油发电机而非中压柴油发电机, 其中关键在于低压发电机运营方便,开启速度非常快,省却了中压并机控 制一系列设计,系统上更加简单。实际上,按照Tier3设计要求,无论低压 或者中压发电机并机,必须有每台中压油机分出两路进行并机,形成双母 线才满足可同时维护的要求,导致成本提高不少。 如下图所示 图20 中压油机拓扑图 低压油机还有其他优点在于日常运营测试更简单,可以给每台发电机增加测试回 路进行离线测试,系统独立性更好,即使后续扩容时候不会影响其他租户。
  • 29.制冷系统选择——国内好些数据中心园区采取系统大集中设计,例如 运营商不少数据中心园区就有采用集中化中压冷冻水机组等。 这种设计除了增加运营人员技术要求外,整个投资财务和商业模式应用并不理 想。很多设计人员在设计时,会考虑大制冷设备的效率会更好,更便宜,但这前 提建立在负载率上,而负载率又建立在租赁用户量。 大型冷冻水机组一台可以有4000kW到7000kW制冷量不等,按照服务器一台 350W和一些环境热量,一台制冷机组可以提供~10000台服务器制冷需求,对 应5kW机架也可以支持600~700个。 可以设想,有多少客户能够短时间内消耗这些设备的容量。这些搁浅的制冷设备 容量,在运维成本上和初期资金投入和资金成本耗费都比较大。如果没有大体量 客户能够很快用到这个用量,实际上算起来成本和收益并非好的选择。很多欧洲 的数据中心采用200~300冷吨的风冷冷机,由于欧洲的水费很贵,用风冷冷机 在运营成本上更好。同时更重要一点,相对容量小的制冷设备,可以更容易匹配 商业模式和成本模型,包括独立机电系统单独计费,PBB模式客户容量可以更 小。如果采用大型冷冻水机组,面对PBB定制租赁模式客户就难以有独立的机电 系统。定制租赁灵活性其实对大租户来说非常关键。 例如,有些对制冷效能要求高的客户,允许冷冻水工况和冷通道温度更高(例如 27℃或以上),换取租赁费用降低。但共享的制冷系统,不得不把水温和环境 温度调低以满足其他租户的环境SLA。 遗憾的是,国内很多IDC在设计规划阶段往往没有把财务,商业因素考虑。 Colo公司销售人员也只好手上机房是如何就如何销售,难以在商业和技术上有 更丰富的选择。 本章结语 笔者概括一下国外模块化设计的实践: 1. Tier可用性层级模块化,可以Tier2 – Tier3 – Tier4灵活升级降级; 2. 功率密度模块化,适合未来低——中——高密度的灵活设计; 3. 空间布局模块化,可以进行分拆成批发和零售区域,也可以做PBB模 式;
  • 30.4. 机电容量模块化,配合混合Tier方式,可以根据机电设备容量采取并 机,环路等方式,也可以做成分布式,使得租户可以独享或共享基础设 施。 反观国内的模块化,大家一下子想到微模块,模块化UPS等。文章到此也只字未 提任何产品设备技术。 笔者认为,一个好的设计: 首先一定是系统架构; 第二才是设备技术。 国外首先谈及模块化,必定先从系统架构出发,然后选择设备技术,优化容量, 布局。如果大家看过笔者另外一篇文章,关于数据中心标准化和模块化,就可以 了解模块化四要素,系统架构、设备容量、布局、组合方式。 目前国内进入一个怪圈,缺乏设计理念,并没有专注于需求和系统设计,沉迷于 设备技术的组合,设备厂商追求横向发展也乐于打包成一个产品解决方案销售。 一旦被这些设备技术形式锁死了系统架构,要对系统架构进行优化,就会伤筋动 骨了。 作为最终用户,一定要明白,首先想清楚自己需求和商业目标,什么系统架构能 够满足需求并达成商业目标,然后再选择合适的设备产品技术。 在本章节更多讨论是系统架构问题,而下一章节将会讨论设备技术与系统架构结 合,更具体剖析国内外模块化技术的的应用对商业价值影响。内容将会涵盖: UPS技术应用,空调末端技术应用,机架供电和布线应用,监控和预制模块。 国内外模块化技术的应用差异比较 在本章节,笔者将会较大篇幅向读者剖析各种技术应用,抛出问题,讲解国内和 国外Colo机房用的产品技术和解决方案进行横向比较,比较对象含传统机房, 国内微模块方案等。
  • 31.笔者较为认同的原则是,首先必须技术可行,能用,这是基本点。至于在满足商 业目标和价值下,技术上追求解决同样问题,大规模、高效率、低成本、可复制 的4个原则。 1、使用什么UPS技术更好? 国外UPS应用有不少市场特点,从使用量来说主要还是塔式UPS,这点跟国内一 样。 在塔式UPS应用层面,唯一不同点是Colo为了尽量采用低压发电机,通常会把 塔式UPS并机数量刚好控制在2~4台。 笔者调查过近百个国外大型数据中心,只有极少会超过5台UPS并机。国外Colo 公司对并机数量通常不希望多于4台。虽然不少UPS厂商的技术宣称可以做到8 台UPS,Colo公司会根据自身经验,故障数据,成本结构,运营难易度等总结 出最佳模型。 下面列举一些组合匹配表,包括UPS并机数量和变压器,配电系统的匹配供参 考。 UPS单机容量 UPS并机数量 第一种 600kVA 500kVA 3台(600kVA) 2000kVA 4台(500kVA) 2N,单独配电 给IT 第二种-A 600kVA 500kVA 2台(600kVA) 2000KVA 3台(500kVA) 2N,独立机电 IT 第二种-B 800kVA 2台 2500kVA 2N,独立机电 IT 3台 4台 2000kVA(3 台) 2500kVA(4 台) 3N,做DR分 布式冗余系统 第三种 400kVA 变压器容量 配电系统
  • 32.第一种单独配电给IT,这种方式比较容易理解。这种设计通常被用于批发和零 售。 第二种,在一组变压器下,完整独立的机电系统和IT系统,这种方式尤其适合做 PBB模式,如下图所示: 图21 典型PBB模式电力容量分配 当然这种设计也可以做4台400kVA的UPS并机,具体看制冷系统负荷计算。 对于中大型客户,可以考虑第三种DR分布式冗余系统,如下图所示:
  • 33.图22 DR分布式冗余电力系统 这种系统对比8~10MVA的大型机电系统共享设计而言,主要有3个好处: 对于Colo公司来说,初步投资不需要一次性投入过多冷冻站等设备, 整个财务模型更加灵活。 大型机电系统在初始负载率较低情况下,数据中心PUE效率往往会较 低,如果按照租电分离计费模式,Colo公司成本竞争力和利润将会削弱。 大型机电系统极有可能共享制冷系统的冷冻站,租户在测试验收阶段 由于有其他用户一同使用,基本上难以进行各种故障模拟。 通过上面表格以及拓扑图对比可以发现,实际上,模块化IDC设计里面对于配电 系统架构,UPS容量选型,投资和成本模型,都有很多最佳匹配模型。 国内动辄建设10~15MVA超大容量的IDC,笔者认为从资金成本模型,出租模 式,计费模型里面并不划算。 国外Colo建设IDC时候,有技术、财务、市场销售共同参与,力求做最佳权衡。 在这方面,国内同行实践上仍然差距巨大。 上面匹配表格中会发现,国外Colo机房设计塔式UPS是基于这些容量匹配的最 佳实践。国外使用较多的模块化UPS,基本每个模块都做得很大,例如200kVA 一个模块,内部6~7个模块并机,最后对应容量匹配塔式UPS并机容量。而采用 25/30/40kVA的模块,需要多套模块化UPS并机。
  • 34.对于Colo公司做批发和零售模式而言,租户看到这么多模块先内部并机再外部 并机,很多时候并不认可其可靠性。更何况租户考察不止一个数据中心,多个数 据中心横向一比较发现如果租金差不多,为什么不选一个技术设计更可靠IDC 呢? 另一方面,很多Colo公司都不愿意尝试这些技术设计,为此承担的宕机风险, 在客户SLA罚则下,可能得不偿失。这也是全球市场里面模块化UPS在大型Colo 数据中心没成大规模的主要原因。 当然笔者也见过领先的模块化UPS制造商能够在欧美市场有好些大型案例,但整 体而言能做到规模化销售的大型模块化UPS(MW级别)屈指可数。 按照海外大部分都是Colo机房情况,客户看重的根本是可用性,这是能否出租 的基本。对租户而言,可用性是能不能的问题,一票否决,成本是好不好问题, 需要综合权衡。从效率角度,国外塔式UPS可以在25%~45%的带载率普遍做到 94%以上,更好的能接近97%。在这种情况下,模块化UPS的高效率,几乎没 有什么优势。 有人会认为,单机的模块化UPS的容量相对少,负载率提升使效率更高。这个看 上去并没有错,但这个问题是出于设计,并非在于设备技术选择。 在Datahall颗粒度章节中笔者也有附图说明。Colo完全可以采用更小容量的塔 式UPS做独立分区,使得负载率上升从而效率计算上跟模块化UPS可以一个水 平。 笔者认为使用整机小功率模块化UPS(200~400kVA),仅适合Colo公司需要 针对中小型客户,要么做PBB模式的独立机电系统,或者一组2N变压器下,批 发业务用大功率UPS,小功率模块化UPS做散户的零售业务。当然,从目前整体 成本角度,选择塔式UPS仍有优势。模块化UPS的容量,技术独特性较高,对于 大型Colo公司都不愿意被某个厂商技术和供应链捆绑,希望可以同类产品横向 比较,根据服务,价格,供应链择优选择。设想一下,一台100kW的模块化 UPS,最大可以250kW,如果是批发业务,有大租户需要400kW,要求8周交 付电力、制冷、机架空间资源(这个是全球大部分Colo数据中心交付速度要 求)。
  • 35.如果真要做到按需扩容,从采购到技术交付链条角度,起码分别要做以下几个工 作: 采购300kW(400kW-100kW)容量UPS模块,同时多购买一套 250KW模块化UPS框架,相应后备电池; 采购~400kW散热的制冷空调设备; 采购新的列头配电柜,机架,机架PDU; 安装所有制冷、电力、机架等设备,并且上电调试通过。 新增设备信息集成到BMS监控系统; 在租户下单期间,要完成至少上面5个内容工作,从采购,设备生产/调货,现场 施工,调试,软件集成。 Colo公司在采购流程上,通常半个月到1个月不等内部流程,然后供应商有订单 后备货生产,即使有货也要调货安排,把生产,物流,安装,集成调试方方面面 算起来,随需而增只是美好愿望罢了,操作层面并不现实。别忘记,如果Colo 公司承诺对应时间内交付,一旦延期交付会遭受租金罚款。 另一方面,潜在租户看到如果现场还没有UPS,也没有电池,也没有空调等, Colo公司还需要重新购买的,多半心里觉得不靠谱而否定了这个机房。毕竟租 户自身企业内部也有交付时间压力,其技术人员也向公司内部承诺了交付时间计 划。 Colo机房如果连出租机会都没有,讨论按需扩容,高效率运行又有何意义?笔 者见过很多用模块化UPS的Colo机房都是会多采购好些模块,模块化UPS能够 运行在更高负载率在现实应用中也并非如此。 在第三章笔者引用了DRT数据中心,里面就是先把整个房间的所有机电设施准备 好,等着客户“拎包入住”,所谓TKF模式。所以回过头来,很多问题不能就技 术而论,要把技术应用和商业价值结合一起分析。 国内的微模块形式,把UPS/高压直流放到Datahall里面,这个在国外Colo机房 难以适用。 首先,Colo公司面对金融类租户,或者其他对安防要求高的租户,租户不希望 Datahall里面有UPS,天晓得哪天UPS故障是否有火灾,或者爆炸影响旁边IT
  • 36.设备。 而如果要把电池放Datahall里面,会存在很大风险,可能连消防规范都不满足。 微模块形式中,还有一个被称为好处的按需扩容,就是预留微模块位置,根据需 求安装。 实际上对于Colo机房,如果在一个Datahall里面已经有租客的设备在运行,需 要在线扩容。微模块施工有空调,UPS,电池,机架,通道密闭,电缆,管道安 装,这些机电施工人员经常进出机房,施工过程对现有租户都是各种未知风险。 就如几个人合租房,如果房东突然要在合租期间,把客厅一侧进行装修,耗时一 两周,相信房客肯定无法接受。有人说可以把房间间隔更小,以房间为单位进行 微模块扩容,这是个解决办法。但既然分割小房间,传统做法不也可以跟微模块 一样能做到随需扩容么? 另外,国内互联网公司习惯采用的240V高压直流,海外基本无法落地。 抛开设备出口资质,电气安规认证问题,高压直流对于一个服务年限10~15年 IDC,对绝大部分租户适配性非常差,凭什么要求所有潜在租客的设备都支持高 压直流?要使用这类技术,就必须做PBB的模式,一旦大型租户撤租后,使用高 压直流数据中心基本上无法寻找合适租户。 最后变成Colo公司把高压直流系统成本全部摊到租赁托管合同期租金内,同时 规定相应合同期内退租后承担罚款,弥补初始成本投入。Colo公司还承担把高 压直流系统改造成交流UPS和交流配电柜,额外承担时间成本,对在线租户风 险,这些都可能计算入罚款或者合同租金。 最后,租户原本希望定制高压直流降租赁成本,但发现成本未必便宜,而且国外 Colo公司多半不答应。反过来,选择交流UPS由于其适用性,设备折旧成本核 算会更加合理。 同样的,飞轮UPS系统在欧洲、亚太地区有不少案例,通常都是大型Colo机 房。除了少数地方例如俄罗斯可以多路市电进线做成飞轮UPS的DR分布式冗余 系统外,其他大部分都是多台飞轮UPS并机双母线供电做法。 下图为常用飞轮UPS拓扑图设计:
  • 37.图23 飞轮UPS电力系统 在这种设计上,可以把冷冻站单独用发电机设计,不通过飞轮UPS集中供电,降 级到Tier3的设计可以省成本。 读者需要关注的是,飞轮UPS初期投入成本较高,从资金成本角度也许不划算, 对要求PBB模式的独立机电系统从电力架构上较难满足。笔者也和使用飞轮UPS 技术的新加坡某大型Colo公司做过简单技术沟通,他们认为如果按正常租赁托 管速度和业务定位发展,飞轮UPS设计可以在10年TCO成本折算到每年后会比 较便宜。 笔者觉得这种说法,未必对,也未必错,难以考证,毕竟Colo公司是几乎不可 能分享自身成本模型。对租户来说,只要看对应计费模式下总成本进行比较就 行。 2、各种制冷末端,使用哪种更好? 在全球范围内,房间级制冷仍然是占据绝大部分份额的主流应用。国内很多人认 为房间级空调在解决高密度,能效上并没有列间空调等较小容量空调好。而事实
  • 38.上国外房间级空调有大量成熟应用和解决方案。通常国外Colo机房都使用精密 空调高架地板下送风方式。 下图是欧洲某IDC的Datahall图,图中深蓝色是精密空调,白色是列头配电柜。 图24 Datahall的下送风精密空调 为了更好保证气流均衡一致性,无论精密空调制造商,咨询设计院都建议高架地 板很高,欧美通常设计都有1000mm高度(800-1200mm)。而布线桥架通常 离高架地板表面2500mm高度,这样即使有48~52U机架时候,布线桥架离机架 顶部仍然有100mm以上距离,最后加上精密空调回风高度粱下1500mm以上, 整个楼层粱下净高起码需要1000(地板下送风) 2000(精密空调) 1500(回 风和管线、桥架) 300(梁)=4800mm。 为了解决高密度,Colo机房多数采用分散高密度负载或增加气流管理设备。国 外使用冷通道密闭支持8~12kW的机架功率密度的案例很多,如果碰到更大的 功率密度如15~20kW,Colo公司会使用地板EC风机和冷通道密闭进行强送风 或者烟囱机架排风做法。
  • 39.图25 烟囱机架
  • 40.
  • 41.图26 送风地板 这类气流增强设备可以通过列头柜的UPS供电做可持续制冷,即使在断电,制冷 设备故障时候,仍然满足设备风量要求,从而确保SLA协定。 对于Colo公司来说,无论强送风还是强排风,这两种方案都能解决问题。而强 送风的适用性更广,原因在于强排风做法在结构上需要和机架紧密配合,通常为 同一供应商。
  • 42.如果租户自带机架,或者强排风设备和机架结构不匹配,就难以适用。 相反,地板风机设备物理结构尺寸上和普通高架地板一样,不会出现结构不兼容 问题。 另一种是Colo机房不安装通道密闭,把高密度机架进行分散负载处理,即高密 度机架附近的机架位置空出来,毕竟一个Datahall的电力制冷容量一定,空一些 机架位置用于高密度机架并无问题。对于Colo公司而言,其实高密度制冷通常 不是个问题,最怕反而是用户低密度,导致有Datahall电力和制冷余量不少却空 间不足,无法再租给其他客户而白白浪费。这也是为什么国外开始流行密度模块 化的矩阵式机电架构设计重要原因。 高密度分散负载的做法如下图所示: 图27 功率密度分布案例 笔者前面提到,国外colo机房很多都不做通道密闭。从技术上似乎不合理,背后 的商业逻辑其实很合理。 例如上图看,蓝色方框内的机架是租户A,红色方框内机架是租户B,绿色方框 内机架是租户C,三个租户的机架尺寸,品牌都不是统一,从技术上做通道密 闭,就需要定制结构部件,成本和难度增加。 如果租户A,B,C租期都不一样,任意租户就撤租而新租户设备上架都使得现有 通道密闭难以适应。
  • 43.如果,现在B和C租户都已经上架且没有用通道密闭,租户A想要通道密闭,并且 接受Colo公司提出一次性通道密闭成本投入。 问题是,通道密闭要做多大呢?是否把B和C租户机架都包括进来,但这样一来 整体成本也会变高,B和C租户又不愿意承担费用,A租户也不愿意承担额外成 本,最后造成无法执行。 同样的是,做通道密闭与否,Colo公司都一样确保环境温度SLA,即使通道密闭 节能,但整个房间制冷环境都是共享的,节能的效果如何只让租户A受益呢? 结果显而易见,通道密闭对于多种机架,机架尺寸经常变化的Colo并不合适。 不要说通道密闭不适合,很多时候机架内的盲板也未必装好。因为一旦机架出 租,包括机架和里面设备会定义为租户管辖范围,装不装盲板,就算Colo公司 建议用户安装,租户要是不装也没办法。 当然如果是PBB的批发模式,或者零售模式下Colo公司提前购买所有机架和做 好通道密闭,基本不接受租户自带机架设备,这又是另外一回事。 就如模块化ups一样,很多时候不是技术问题,是商业问题。 对于有租户需要部署高密度机架,不少国外大型IDC会提供CFD的仿真模拟,租 户是否需要额外的气流管理设备。特别地,为了保障温度SLA以及对精密空调节 能,欧美数据中心会做EC风机压差控制,确保送风量足够,实现和负载风量的 动态匹配。 压差控制做法通常有两种模式: 如果不能用通道密闭时,优先使用高架地板内外压力差;
  • 44.说完国外,回头看看国内情况。 国内Colo机房超过800mm的高架地板高度并不多,国内Colo机房在散租客户 (低密度为主)也通常不做通道密闭,批发大客户,多数会做通道密闭。 对于高密度机架,坦白说除了几大互联网公司,以及个别客户高密度设备,总体 来说用户群体比较少。 在技术层面上,国内使用地板风机方案非常少,取而代之会使用列间空调方案。 从笔者来看,列间空调和精密空调都是本质上并无区别。 以大型Colo机房常用的冷冻水空调来说,都是盘管和风机,机房的SLA规定是冷 通道温度范围以及其测量方法。对于空调而言只要把足够风量且温度合适的风送 给冷通道到服务器就行了,高密度和低密度无非是风量需求大小差别,跟列间空 调还是和精密空调抑或其他空调并没关系。抛开厂家宣传列间空调都是紧靠热源 效率高问题,单从解决方案上,精密空调每kW造价成本是列间空调的一半不 到。目前最大的精密空调根据设备制造商宣传彩页工况达到200kW以上,而 300mm宽列间空调只有25~30kW,一台精密空调抵得上6~7台300mm宽列间 空调。加上安装成本,运营成本,管路成本,监测点位成本,列间空调解决方案 成本会高不少。 笔者不想在此深入讨论精密空调和列间空调能耗谁高谁低问题,笔者看到的很多 案例可以证明无论投资成本,电力运行成本,大型空调无论精密空调或者AHU 空气处理器,大风机、大冷冻水盘管的设计从系统上会更优。
  • 45.图28 高架地板内外压差控制示例 如果可以采用通道密闭时,优先使用通道密闭内外压力差; 图29 通道密闭内外压差示例 刚才提到成本问题,列间空调目前在全球范围都是小规模应用,成本是一个重要 硬伤。可以设想,如果Colo机房设计都用列间空调,其建设成本跟其他公司相 比都更高,成本高了自然租金就高,要么目标租户对成本不敏感,否则大部分情 况下,成本不占优势,技术并不见得明显有差异,SLA也一样,作为租户为什么 不选便宜的呢? 再者,列间空调对Colo机房也并不合适,刚才提到的200kW精密空调,对应 6~7台300mm宽列间空调。对于一个房间1000kW热量,本来只需要6台(5 1)200kW精密空调,现在需要40多台列间空调(考虑冗余)。是安装调试40
  • 46.多台列间空调快,还是6台空调呢?运营管理角度这么多小空调,也意味更多人 时投入,人力成本时间成本更高。当然有人说,列间空调可以不需要高架地板, 省成本。 这有一定道理,但同样不适合Colo机房,原因在于这种情况对于冷冻水系统, 只能上走管,如下图: 图30 列间空调上走管示意图 首先通常使用的CDU,本身就是个单点故障,按照Tier3设计则需要把两个CDU 管路相连成环路。 而目前仍较多采用CDU设计在于取消CDU后,非常多的列间空调末端如何保证 水流量平衡是个挑战。 在末端管路路由上,即使把冷冻水管避开机架上空,没有高架地板的设计意味着 机架上方至少有电气桥架,网络桥架,消防管,水管,很多如政府、金融等租户 在选择IDC时候都对漏水风险有所顾虑。 除非当地市场客户很多接受上走管,但事实上笔者看过绝大多数使用列间空调方 案仍然采用下走管方式,毕竟出问题不满足SLA面临租金损失和罚款,破坏客户
  • 47.ICT设备还将面临整个事件恶劣性使得后续市场口碑,用户印象极难扭转。 在互联网时代,这些恶性事件很容易病毒式在用户群体内传播,这风险损失和投 资收益显而易见。 所以大多数使用列间空调方案仍然使用下走管方式,如下图所示: 图31 列间空调下走管示例 国内的微模块应用也有使用钢结构底座架高进行下走管而不用高架地板的方案, 这种方案面向Colo机房大部分租户并不合适。 类似于通道密闭问题,钢结构底座本身就是一个结构件强耦合设备,租户机架设 备结构不标准,底座就无法适配。即使尺寸适配,需要把设备(高端存储,高端 交换机这些整套设备)抬高到底座上就有较大技术风险。 大多数情况下使用列间空调制冷的Datahall里面可放置机架的数量没有精密空调 方案多。 对于零售模式,散租低密度,很可能就会出现有多余电力,制冷容量,就是没有 多余空间出租,这些损失都是生意的机会。 高架地板目前为止依然成为经典设计,有几个主要原因:
  • 48.高架地板下是冷量池,颇有点IT设备资源池概念,然后通过调整通风 地板位置,通风面积等应对不同密度租户; 电力线缆在高架地板下时,任何施工都在地板下,显著降低对在线租 户影响和风险;网络布线在机架上方,但网络布线不像电力线缆布线时施 工产生风险大。 使用精密空调方案时候,高架地板气流方式仍然具有很大优势。 列间空调宣传时候,也提及很重要一点是对楼宇层高要求低。 对于自建数据中心,实在没有更好层高选址,列间空调是个合适的解决方案。但 如果用户考虑到底花更大成本自建,还是使用Colo租赁托管服务时,答案就变 得很简单。 为什么不选择一个层高更好的Colo机房去托管而去找个层高低的自建呢? 再者,层高问题,精密空调也有解决方案,笔者在亚太区,就见过一个十几兆瓦 IDC,粱下层高只有2.7m,要解决大部分12kW的高密度机架,使用就是精密空 调上送风方案,如下图所示: 图32 某亚太区IDC制冷气流组织方式 笔者也见过国外有些Colo机房,使用85%面积的5kW机架密度机房,预留15% 可以用于专门高密度使用列间空调,当然在租金价格上差异化收费,高密度区由 于成本贵租金自然更贵。同一个问题可以有多种解决方案,哪个适合,哪个更体 现商业价值目标是笔者强调的。
  • 49.列间空调有自身市场定位和需求点,但对于大规模Colo机房建设,从技术和成 本上都不是最优方案。 同样的,还有顶置空调盘管,典型方案如下图所示:
  • 50.图33 顶置空调制冷方式 顶置空调方案更多适合自建应用,对于Colo机房来说,有几个问题比较麻烦, 包括: 顶部漏水风险,如何让所有潜在租户都认为没有漏水?这个似乎是难 以克服心理障碍; 顶置盘管在支撑结构件上强耦合,并非所有租户机架尺寸都能很好匹 配; 对于没有风扇纯盘管的顶置空调,还需要考虑是否租户设备风扇压力 足够克服盘管阻力;各种尺寸不一机架在机房,是难以做到良好密闭。作 为Colo机房,也无法要求每一个租户都把机架封闭得严实,毕竟机架内部 自主权在租户,不是Colo公司; 末端制冷技术上也有氟泵系统(使用冷冻水和氟进行热交换)以及热管系统。
  • 51.在笔者角度,氟泵方式也好,热管方式也好,其方案初衷是解决节能,高密度, 无漏水风险问题。就如本节前面提到的,国外应用上,这些问题房间级空调都有 成熟的解决方案,又不会产生行级或机柜级制冷设备漏水风险。至于节能上,欧 美好些数据中心通过合理的系统设计和设备选型,系统运行在18℃/24℃冷冻水 供回水或更高,冷通道也能维持SLA规定情况,大部分时间都可以运行自然冷却 模式,其节能效果比氟泵和热管都能达到更大收益。如果读者感兴趣可以对类似 气候条件下横向比较国内那些PUE值优秀的数据中心,大部分都是通过高水温运 行在自然冷却模式而达成。 本节最后,笔者看到国外都往大末端,高水温,做更精确气流控制逻辑进行实 践,但国内似乎就喜欢越来越把末端设备往小型化做,从房间级到行级到机柜级 别,折腾各种气流组织方案而少讨论系统架构优化。 笔者查阅了国内近几年申请的关于数据中小制冷方面专利,几乎都是各种送风末 端方案。笔者和朋友曾经开过玩笑,数据中心制冷专利门槛也够低的,所谓紧靠 热源制冷,对着一个机柜,上、下、前、后、左、右做6种空调方案,再做一些 修改,就能凑出十几种专利出来。 各种技术方案都有其合适的应用场景和实现商业价值,谷歌数据中心制冷方案放 到Colo就未必合适,也未必合适其他大型互联网公司。同样地,本文讨论的是 能够适用于大部分客户应用,具有规模市场普适性的Colo机房制冷方案。 笔者视角并未发散到其他商业目的和因素,例如提及IDC造价成本高,租金通常 会高,对于Colo公司来说,仅从成本方面讨论IDC定价,盈利问题至少是不充分 的。 IDC企业还可以通过资本市场操作获取其他效益和好处,所以如果有读者认为, 用很贵制冷方案IDC租金也不见得贵,笔者认为都很正常。但这些盈利模式和市 场操作并非本文的讨论范畴,笔者在此也点到即止。 3、机架配电和布线 在国外,有些对成本敏感客户,或者Colo公司想租给更多散租用户的,通常会 使用多格的机架。但现在基本只有老旧机房还看到,新机房已经很少了。
  • 52.这个并非什么高深技术,把1个机架分开上下出租而隔开。为了提供更好的私密 性,还可以对机架开门的机械锁换成HID电子门锁。进一步,还可以在机架上方 加装摄像头,摄像头和开门联动,只要打开门,就可以触发摄像条件。 这几个可以从下图看明白。
  • 53.图34 各种机架解决方案 同样,曾经较早年算得上“创新”机架顶部上走线,在国内近几年借助微模块也 有不少厂家宣传。 机架顶部上走线往往分为强电和弱电两个不同的线槽,例如下图为典型微模块对 应机架上走线:
  • 54.图35 典型微模块的机架顶部上走线槽 笔者多次提及,Colo机房不少客户是自带机架,或者设备尺寸不统一,这种和 机架结构强耦合的上走线桥架设计就难以使用。 笔者在相关结构件设计有一定经验,得出一个重要结论是,结构件的TCO,除 了成本外,opex就是简单和灵活改动,本身结构件是不省电的。 而在简单和灵活上,只要结构强耦合的,基本上很难成为一个通用的优异设计。 结构件往往被人忽视,甚至现场不容易发现问题,但一旦出问题往往后果很严 重。这也是笔者并不认同微模块底座,机架自带上走线线槽等设计的原因。 在国外,笔者所见绝大多数都习惯高架地板下走电缆,而网络线缆采用上走线。 为了更好理解到底为什么有高架地板,为什么有上走线,下走线,解决什么问 题,笔者把机架网络线缆采用上走线桥架如下图所示:
  • 55.图36 网络上走线图,电缆下走线做法
  • 56.
  • 57.
  • 58.图37 网络下走线图
  • 59.曾经一段时间,国外也有采用网络线缆下走线方式,但最终还是演进到上走线, 我们比较上面网络上走线和下走线做法,施工方式可以看出。网络设备由于组网 架构,带宽要求,所用的线缆种类都有所不同。与电力线缆不一样,在Colo机 房里面,网络布线出现变更的机会更大。 地板下走线做法,笔者认为最大问题在于不容易管理和变更。 上面图可以看出,一旦有大量布线工作,技术人员需要长时间打开多个高架地 板,在下方做布线工作。而这时机房其他租户可能因为漏风问题导致其他地方送 风不均,冷量供应不均匀。 SLA这个严苛大棒无时无刻在挥舞,大量地板打开导致冷量浪费和分配不均,存 在违背SLA的风险,所以慢慢大部分公司把网络线缆改做上走线。 而电力电缆下走线,一般都是通过固定在桥架上的工业连接器方式,如下图所 示: 图38 电力线缆下走线图
  • 60.对于机架的电力线缆布线,笔者认为无论高架地板下走线或者上走线都并无太大 差异。上走线需要在桥架距离上注意电磁干扰和符合电气规范设计。国外Colo 机房大部分电力下走线还是历史和习惯原因居多,就如房子装修到底水管和电线 穿管怎么做,不同地方不同做法。 除了电缆上走线外,国外还有使用小电流母线(400A及以下),相比之下国内 仍然难以成规模应用。很多人看法第一感觉是小电流母线成本太高。笔者也认同 成本是很重要一方面,但还有其他方面。 图39 电流母线上走线示例 笔者以上图为典型例子,为什么母线上只有总开关,没有其他输出开关插接箱 等?原因是Colo机房还没有客户时候,使用母线可以有效减少初期投资成本, 而且母线插接箱安装灵活。 使用传统配电柜,只有总开关,下面不配/少配微断不也一样?确实传统配电柜 在配电层面并无本质区别。但母线的方式,在施工,安装,变更上会更快,尤其 对零售模式客户,短租,少量机架时候,这类方案往往有很大灵活性。对于长租 的,批发模式,其实配电柜方案一样满足功能,而且成本上更有优势。同时,针
  • 61.对不同的计费模型,母线供应商还进一步拓展自身技术竞争力,推出带有计量功 能的插接箱,如下图所示: 图40 母线监测管理方案 这些功能在列头柜和BMS上也可以实现,但很重要的是,母线方案提供差异化 的电能管理功能,分别满足需要租电分离计费模式和包电包租计费模式的客户。
  • 62.进一步地,上面右图的母线,还可以采用网页方式,云账号远程提供用户访问, 查看机架实时功耗水平等。这些高度灵活和专注客户需求的方案,列头柜单产品 难以满足。 母线还有一个明显好处是支持开关到线缆的热插拔。国外Colo公司通过热插拔 的功能,支持不同功率密度机架上架,同时保证其他租户的SLA。 而使用传统配电柜做法,一般只能使用梳状母排配热插拔开关,但是开关出线带 电连接会有较大风险。国外Colo公司在SLA定义上,对供电可靠性的5个9是基 于双路供电,而单路供电往往只有4个9。 笔者和国外领先的母线制造厂商国外人员沟通时,总结两个关键结论: 一是国内人力成本相对低,列头柜和线缆方案仍然很大成本竞争力; 二是母线有优势的应用场景需要商业模式和计费模式依赖,国内和国外相比仍有 较大距离。 通过上面总结几种电力和网络走线方式,大家会发现,高架地板其实并非有明显 优势。 如果取消高架地板,所有电力和网络线缆上走线也可以,美国有好些数据中心已 经是如此设计了,例如Sabey、SuperNap等。 取消高架地板的问题,更多需要整个行业的理念变化和供应链匹配,成本模型优 化。 理念变化,就如面试销售人员时候,应聘者穿着休闲,面试官往往第一感觉就不 好。 在租户角度,这种以貌取人的生活场景,在Colo数据中心也一样。例如别的数 据中心都有高架地板,设计都很一致,容易横向比较,突然有个“异类”设计, 有些传统观念的租赁客户就难以接受。 紧接着,潜在租户会考虑,这种无高架地板的数据中心,用的客户多么?如果发 现数据中心并无多少同类租户案例,心里也会没底。 再看,没有高架地板,能解决高密度么,能保证SLA么?如果类似国内采用微模 块等列间空调制冷用钢结构底座而不用高架地板的,初投资成本高好些。 租户就会评估没有高架地板,租金应该少,如果租金还贵,有什么优势呢?一连 串的疑问,在系统设计,产品选型角度都要经过Colo公司技术人员,以及潜在
  • 63.租户的各种技术商业权衡。 高架地板取消也需要产业链相关产品协同,例如房间级精密空调还是下送风设计 为主,气流设计,通道密闭的结构问题等等都需要解决。 4、机架内部配电和监控 国外Colo机房和国内一样对机架内部配电都采用rPDU配电条。国外Colo机房为 了满足更多客户需求,会针对性使用不同功能的rPDU。例如面向需要租电分离 计费客户,客户还需要远程可以查看自身机架实时功耗,带电流和电能监测功能 的rPDU就有用武之地。 同时rPDU的制造商也明白SLA等情况,在rPDU上增加了额外环境传感器的接 口,用于监测该机架的温度情况。可以说,那些所谓智能rPDU,已经超越纯粹 配电的概念,这个产品作为解决方案的背后是监测环境SLA,和租户机架用电计 费。如下图所示: 图41 机架rPDU配电条功能
  • 64.进一步地,那些可以监测每个插孔供电,还能远程关闭供电,也是租户有远程管 理要求所致。 国外领先的rPDU厂商已经不满足于硬件上和简单软件上的“智能”,为了吸引 Colo公司,推出结合rPDU智能功能的DCIM等软件,使用自家的rPDU,就可以 有一套环境和电力监测软件,可以优化容量,也可以使用DCIM进行不同用户的 计费管理等,做到和租户的信息透明。有兴趣的读者可以参考Raritan力登公司 产品就可以了解更多。 对于租电分离模式,计费准确性和rPDU的可用性对于Colo公司以及租户都是至 关重要,毕竟一旦监测元件故障,很可能计费就中断(可以想象家里电表计费失 败,多算或少算的后果)。为此rPDU厂商也对自身产品质量和可用性做了大量 的工作。例如,大多数rPDU的电流互感器测量精度有2%左右误差,领先的 rPDU制造商使用更优质电流互感器可以控制在1%之内确保计费准确。针对一些 高密度应用,热通道温度有可能很高(超过45℃),通过更优异性能的rPDU内 部元件和结构件防止高温情况下损坏等。 对比国外,就拿租电分离计费模式来说,国内有多少数据中心可以从硬件到软件 技术上都实现功能?可以做到与客户之间信息透明嘛?有自动化的软件可以管理 这些数据吗? 5、预制化模块 业界对预制化模块的分类和相关技术,可以参考施耐德白皮书:http://www.apcmedia.com/salestools/WTOL-97GLP9/WTOL97GLP9_R0_CH.pdf?sdirect=true笔者认为,IT模块并不合适Colo数据中心,而机电模块是可以考虑。 IT模块的问题在于网络,服务器等设备经常需要变更,变更包括布线方式,机架 尺寸,高密度配电和制冷,以及整机架设备上架,以及Cage隔笼。 集装箱模式难以适应Colo
  • 65.目前而言做成集装箱形式的IT模块,由于尺寸限制和结构设计,难以兼容上面提 到的变更要求。 集装箱等结构上限制,对于高密度机架(52~54U),整机架部署,高密度散 热,做钢笼分离等都非常难适配。同时集装箱空间狭窄,机电设备运营也是一大 难题。预制化模块从形式上的移动性,对于Colo来说并无意义。 笔者看过相对成熟的预制化模块化数据中心,做得比较好的要算是Bladeroom 了。 但是仔细研究其设计,会发现Bladeroom其实更多是把建筑拆散做成模块,做 完后从布局和空间上和水泥建筑无太大差异,其模块尺寸也比集装箱尺寸要大不 少。 笔者参观过Bladeroom在南非的数据中心,从内部、外部看都看不出是模块化 建设。 另外这种预制化模块的数据中心,往往需要额外的建筑进行配套。因为一个 Colo数据中心不仅仅只有机电设备和IT区,还有其他功能区,例如拆包测试 间,机电工程师运维房间,运营商接入室,仓库,会议室,茶歇室,洗手间,淋 浴室,休息室等。 对于集装箱形式而言,这些功能区往往难以满足。IT区域基本上做不了标准化, 除非生意是服务器主机托管,所有机架和设备配置都比较标准。否则只要做 Colo生意,难免碰到各色各样用户机架。 其实做不做集装箱,预制化等对于Colo公司来说并非关键。站在商业角度,最 起码做了之后,租户谈不上喜欢也至少感觉和水泥建筑工程类似。用了这些技 术,除了吸引眼球而无法带来更多经济和市场效益,也不能积累多少未来技术, 那又有何意义? 预制化并非去解决模块化问题,而是去解决快速交付及其质量问题,供应链管 理。 北美领先Colo公司DRT,就把机电系统标准化后,做成机电模块,方便在北美 不同地方交付数据中心。
  • 66.所以笔者觉得预制化机电模块会是一个方向,这并不取决于技术好坏,取决于成 本模型,交付速度,施工质量。 全文结语 笔者问过很多人究竟什么原因导致国外技术在国内应用受阻。不少人还归结于国 货当自强,国外产品水土不服。但笔者并不完全认同这种看法,起码不是主要原 因。 国外设备厂商确实有不少不了解中国国情,他们认为增值的解决方案在国内商业 模式下可能并不产生商业价值。 通过上面大量实例比较中外数据中心技术应用差异和市场环境可以看出,一旦运 营商网络中立,互联互通,商业服务和盈利模式改变,国外设备和技术应用就会 更加广泛空间。 做Colo行业的人会了解到,国际上租赁数据中心都需要获得ISO,SSAE,BSI等 权威认证才具备市场竞争力。 读者可以上Equinix官网看看就知道资格认证是Colo租赁机房综合能力的重要体 现。 在国内,掌握带宽,电力,资金渠道,土地等资源比折腾技术,运营和商业模式 更为有效,毕竟中国也是商业社会。 笔者觉得,在Colo数据中心流行并发展的重要阶段,国内由于市场环境因素, 服务和商业模式拖了后腿,底子和积累已经难以追赶欧美,或许云计算是下一个 契机。 模块化设计和技术或许会围绕云计算数据中心而演进更多,这将会有新一套商业 和技术规则,大家不妨拭目以待。