2019年6月25日,由浪潮与OCP开放计算社区联合主办的首届OCP China Day(开放计算中国日)在北京正式开启。本届OCP China Day聚焦人工智能、边缘计算、OpenRack、OpenRMC、SONiC、OAM等前沿技术话题,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家分享了最新技术进展。近千名工程师和数据中心从业者参加了此次大会。
OCP是全球最大的开放硬件社区,2011年由Facebook发起成立,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,OCP核心会员超过200家。
伴随着云计算产业的发展,云数据中心创新方向逐渐明晰。在数据中心创新的整体策略上,几乎全球所有的CSP都选择了高集成、模块化、面向应用的设备定制化。开放计算也对数据中心的设计产生了重大影响,云数据中心需要更加通用的机架和机柜设计。在本次OCP China Day上,来自OCP基金会、LinkedIn、百度、Facebook的专家分别介绍了在Olympus、Open19、ODCC天蝎项目、Open Rack 4种机架/机柜设计不同特征和最新进展。
以下为大会演讲实录:
OCP CTO Bill Carter:云计算的发展推进了机柜进行扩展性和效率的优化
OCP CTO Bill Carter
主持人:欢迎大家重新回到主会场,我们下午精彩继续。下午四个项目的分享都是OCP重点投入的,第一个主题分享,我们再次有请OCP CTO Bill Carter上台。
OCP CTO Bill Carter:非常感谢,下面我们会谈一下机柜的架构,接下来这一个小时我有一系列的嘉宾发言人要上台讲不同的机架和机柜的架构,但是在此之前我想要讲讲我们怎么样走到今天这里,我们这个旅程是什么样的进展。我们先看一下一百年前的情况吧,大家能认得出来机电器吗?这其实是一个用在早期的发电报的时代,通过有线去发布信号,在美国是ATNT发明的,他们相当于中国常见的电信商。他们把这些东西放在机柜里面,这是当时的机电器的机架在1922年的模样。因为他们有这么多机柜,所以为它专门书写了技术规范复制在美国各地,因此1934年这就变成了第一个EIA 19英寸的机柜的规范。如果说大家今天还用的是EIA的19英寸的机架的话,那你用的是将近一百年前的技术了,因此也会有一个项目是改进机架设计的。
这是到2011年、2012年我们会涉及到一些机架的设计,今天也会分享到一些相关的信息,希望我们可以进一步发展,到现在更加通用的机架和机柜的设计。也是因为云计算的发展推进了机柜为扩展性和效率进行优化,我们有4种非常不同的机柜的设计,一个是Olympus项目,是几年前微软牵头建立的项目,跟OCP一起合作;当然还有Open19的设计,也是LinkedIn的工程团队负责统领的,Zaid之后会讲LinkedIn的设计。还有ODCC天蝎项目,大家最熟悉这方面,百度的丁瑞全先生会跟我们分享这方面。最后我们会邀请来自Facebook的Steve Mills跟我们讲一下Open Rack以及Facebook对此的贡献,他们已经走过了三代,现在正在为第三代努力。我们希望把这些项目的东西都集成在一起给大家分享得更多。今天早晨我讲到八年前我们关注不同的地方,现在关注到各个项目的相似之处。
Olympus的微软的同事来不了,我帮他讲几页片子。我们分享一下这个项目的情况,它是一个整机柜的设计,有几个部分,在设计中分享和贡献给了社区,19英寸的机架,用的是和ATNT二十世纪同样的设计,但是有一个修改,就是他们有一个机架管理的解决方案在上面,所以把前端放入计算节点之后它在背后就自动连接起来。另外还有通用的电源线,所以不管你的数据中心是什么样的都可以通到数据中心的电源,这电源的连接器有的地方有有不同的大小,会发明一个系统使得这个电源线能够互操作。同时也设计了机柜背后有配电系统,把这个电源线相应的信号转换之后,所有的交流电传给计算节点,他们有1U2U3U的服务器的机箱,也是参考设计的一部分,可以互换使用。还有一个新的供电的解决方案,它是非常独特的,它没有两个供电,只有一个供电电源,但是有两个整流器。
我们来看这几个特征。背部有19英寸EIA的兼容,是1200毫米深的机柜,它们的电源功率解决方案在背板,也有机架的管理,能够提供弹性。还有我刚才说的电源,它有两个整流器,但是每一个相位都有一个整流器,所以它还有相位的平衡。今天很多时候我们会把每个相位都进行转换,输出直流电或交流电,它们有可能会不平衡,但是有了这种相位的平衡器均衡器,三个相位就可以有同样的电流,都放到同一个供电的盒子里面,这就是Olympus项目的特点,所有的计算节点都是热插拔,可以盲插,适应背后配电的系统。他们获得了世界各地的安全认证,对所有的组件都获得了安全认证,这是非常必要的。因为把这个东西安装在自己世界各地的数据中心,有的时候放到了客户的数据中心里面,我们把它称为其他人共有的数据中心。这个有可能会对安全方面,像电磁干扰有一些安全方面的要求,所以希望全世界各地安全方面的要求都能够满足,无论地点在哪里都可以兼容,无论是微软的数据中心还是客户的数据中心。除了简单易用和扩展性以外,它们还有其他的特点。
左下方是2路的计算节点,它是一个非常好的开放的设计,可以看到只有一个银盒子在最后角落里,这是供电的单元,这种弹性和相位的均衡也是在供电的小盒子里设计好的,这就是Olympus项目。
LinkedIn Head of Infrastructure Engineering Zaid Ali Kahn:很多边缘的机架都不是集中数据中心的工程师去维护,边缘的数据中心需要能够实现自维护或者简单省事的维护
Zaid Ali Kahn, LinkedIn Head of Infrastructure Engineering
OCP CTO Bill Carter:接下来我们再次邀请Zaid Ali Kahn上场,他是LinkedIn的基础设施工程的首席工程师,让他介绍一下LinkedIn在Open 19架构方面的情况。
Zaid Ali Kahn:介绍了EIA19英寸以及它有多长时间的历史了,我在想今天在讲什么以及架构未来如何发展,我们未来的子孙后代会怎么看我们现在的情况,他们会不会也召开一个研讨会,四五十年以后人们来讲我们的技术也是很老的技术了。无论如何这都是很好的工程。
我跟大家介绍一下Open 19的技术,我们最近刚刚把Open 19的技术贡献给了OCP,我们有孵化的委员会,如果你是在这个领域工作的话,那么7月份的时候我们会对架构方面有更深度的讨论,所以欢迎大家参加,希望这个技术能有更加广泛的应用,而不只是在我们数据中心的应用。我跟大家介绍一下我们的技术架构。先看几个想法,我们为什么要这么做?几年前我们在数据中心有一些限制,我们的空间有很大的限制,而且电源功率也有很大的限制,我们没有奢侈的买很多地,竖很多的机柜起来,每个机柜都很大,事实上我们有空间的限制,我们需要空间和功率得到最大的利用,所以我们需要机柜能够比较紧凑。我们现在一个机柜要装96个服务器节点,这样的复杂性就要求我们需要有些新的解决方案,尤其是如果你要实现这样的规模效应,需要大幅度的提高效率、降低成本。我们就发明了这种Open 19的技术,它是基于计算节点的小盒子,模块化的能适应所有19英寸的机架,就是用很多配置,可以是双宽的或双高的,我们希望把每一个计算节点的电源功率的部分都集中起来,所以我们有一个电源架。
另外一个部分就是我们的交换机交换层,大家在这个图上可以看到有两个交换机,其实两个不是必要的,我们这样设计是因为一个机柜有2个叶节点,这是里边的一些构造。接下来我再深度分析一下,机柜的这些盒子有12 2U或8 2U的选择,你的配置可以选,你可以放4个节点,你可以放2个双高半宽的节点,可以放2个双宽的放1个双高的节点,都可以。我们的想法就是一系列不同的计算节点的大小尺寸和风量都不同,都可以放到机架当中去,可以在右边看到背部是卡扣式的后开门,就像刚才Bill Carter在Olympus项目中说到的,不希望这个数据中心的工程师需要走到机柜的后面做一些维修,所以从前边基本都可以做得到,能够尽量的简单。
接下来我们说一下这些砖块的外形,它们都是计算节点,我们不希望所有的节点都是我们自己设计,我们希望把它开源出去,让大家都可以贡献,无论是服务器内部还是其他的部分,使得多个供应商都可以自己去制造生产。你可以有单砖块的可以有双高半宽、双高双宽的节点,我们有线性的功率和数据增长,它也是自我保持的,电磁干扰、安全和冷却都能够做得很好。这是我特别喜欢的一点,我们很大的一个创新之处就是电缆系统,因为一般的服务器电缆布线特别复杂,所以我们非常强调这点,大家可以看到背部所有电缆,蓝色是电源,白色是网络,背部的卡扣,它有25G和100G的网络配置。
我们的想法就是它能够非常简单地管理,像我之前说的我们不希望数据中心的工程师花很多时间去布线,我们希望能够简化他们的工作,让他们更快的能布好,这样的话在机柜的集成方面有6倍的改进。
我们再看一下电源架。这是下一个阶段,我们把这个服务器里边的这些电源部分全部都拿出来集中在一起放到一个电源架上面,它可以是19.2千瓦,6个3.2千瓦,它通过端口管理,所有的都可配置,我们希望所有的服务器都能够实现统一的管理,可以通过电源架把它开启和关闭,而且它是充分冗余的,有AB输入,在这点上我们跟很多的供应商合作。
下面我们分享一下这项技术的好处。其中一点没有在这个片子上,很多人都在讨论边缘,边缘我们需要什么?它可能需要不同类型的支持,很多边缘的机架都不是集中的数据中心的工程师去维护,所以边缘的数据中心需要能够实现自维护或者简单省事的得到维护,所以Open 19更适合部署到边缘,因为布线很简单,其他的解决方案都是非常易于维护的。所以说我们觉得很多人会感兴趣,将Open 19技术采用在边缘数据中心当中。所以我们的想法就是它能够适合所有的19英寸的机架,我们还可以做一些经济化,我们有一些架构的改良使得实现更好的一体化。我们可以实现5-6倍的更快的机柜级的融合集成。我们还有一个小视频,就是一般的机柜的集成和Open 19机柜的机柜,大家可以对比它有多快。在服务器的方面,我们提高了效率,没有服务器的电源供电,这样的话效率能够提高,另外有很大的节约。随着我们数据中心的扩展,有了成千上万的节点,加总起来的节约就会非常明显。
这是在我们生产环境当中的情况,左边是那些空的盒子,右边放了计算节点,大家可以看出来把它们放进去非常容易,看起来就像一般的19英寸的机柜一样,但是它是卡扣式的。我们在寻找高内存的高端的服务器,我们需要每个服务器消费3T的内存,我们在想怎么样为这个项目寻到合适的架构,因为我们也是OCP的一部分,所以我们也把这个问题提给了社区。有人说Olympus的模板是最好的方案,所以我们把它放到了Open 19平台上面,我们现在的数据中心也有Olympus的模板,就是照片里的这个样子,我们也可以把其他项目的优势集成到我们自己的Open 19的项目中,然后集成起来,有了Open 19和Olympus加起来就能实现更好的效果。我们在相互转换进行一些汇总,这就是我非常自豪的想跟大家分享。
未来我们也会开放找更多其他的因素,我们也有些新的服务器的模块,其中LinkedIn也会贡献自己的架构,这是我们路线图当中的一些设想。我们和其他不同的IC合作,我们想要考虑边缘数据中心。这是我们布线的系统在后部,大家可以看到背后是怎么相连的,非常的整洁。
谢谢大家,我的分享到此结束,我希望刚才给大家分享的这些信息大家都会觉得比较有用,如果大家有任何问题的话可以随时找我沟通。
百度AI系统架构师丁瑞全:天蝎项目在中国已进行了大规模部署,在新的AI、5G以及液冷和48V供电场景里也做了新的尝试,希望和OCP共同推动技术标准,应对新的挑战
百度AI系统架构师 丁瑞全
百度AI系统架构师丁瑞全:我是丁瑞全,百度AI的系统架构师,这是在百度阳泉数据中心部署的照片,我之前没有去过这个数据中心,发现这个Rack这么漂亮,百度在今年年初和浪潮一起创造了一个记录,在8个小时成功交付了一万台服务器,这是非常惊人的,这就是整机柜给我们带来的好处。
天蝎整机柜的历史,上面是主要的几个阶段,我们发布的一些时间点,下面是基于天蝎整机柜经典的产品。天蝎项目在2011年就成立了,当时百度联合阿里、腾讯以及相关主要厂商成立了这个组织,这个时间点和OCP时间差不多,上午的家军和Bill讲到我们尝试和OCP组织建立合作交流,共同推动标准。也是因为国内、国外特殊场景的差异没有达到融合,在之后的几年里各自按照自己的路线发展。
2014年发布了天蝎2.0,在Scorpio2.0可以达到大规模交付的状态了,基于这个标准开发了冷存储服务器,单U 18个盘,还有高温耐腐蚀的服务器,针对中国的环境做的相关设计,我们也发布了X-Man,百度AI计算机,也是当时业界最领先的产品。之后发布了天蝎2.5,在这之上也做了产品迭代,X-Man2.0发布了,然后在2018年底发布了X-Man3.0,实现16个AI加速器高速互联,我们现在已经进入了X-Man3.0的阶段。
在AI、5G、边缘计算以及云计算技术浪潮下,我们面临新的挑战和机遇,我们需要更大的性能,面临更大规模供电挑战,我们需要支持单节点或者跨节点互联,我们有很多新的AI节点出来,需要标准化通用化,稍后我也会分享在这个方面做的工作。5G和边缘计算有从云端到算力的部署,有AI的能力,能更好地做边缘的语音图像相关的识别,更好地降低成本,云计算这一块需要有快速交付部署能力,同时以客户需求为先,快速达到交互的方案。
1.0是模块化,将供电散热集中管理分离出来,有比较好的模块基础。2.0主要做的标准化,1.0产品里不同系统厂商方案在一个Rack里无法共存,这给升级迭代带来很多问题,所以2.0做了很多标准化,把硬件软件做得很清楚,不管是中间件、还是散热还是服务器,都可以在Rack里共享。
在3.0,面对5G、边缘计算、AI新的场景里以及云计算的趋势做了一定的改进,我们肯定更关注弹性、可扩展性,减少相关部件,支持更大的供电能力,这是更高功耗相关的CPU和AI芯片,我们也需要更好的灵活部署方式。
这是3.0 Rack大的架构,我们以SU为单元构建这个系统,SU和OCP的OU有一点小的差别,稍微矮一点,这个我们的需求都能够满足,同时在Rack层面部署更多的节点,所以有比较多的好处,3.0同时可以兼容19英寸和21英寸的产品,达到降低整个系统的成本。
供电方面相比以前有很大的变化,我们设计了48V的PSU,也有AI的场景,包括在多个CPU里单个节点,怎么去支持整个部署能力,降低成本,48V是AI关键的基础。
散热方面,我们之前是整机柜集中式的散热,它的好处是比较灵活,而云计算面临变迁和混合部署也带来了新的问题,所以我们在新的层面上解决问题,同时采用液冷散热技术。我们在2017年就部署了液冷技术,再逐步推广到通用的CPU计算场景里。
这是我们几个典型的计算机配置,左边是微服务器低功耗产品,右边是高密度低成本的产品。第三,全宽主板,主要面向计算密集型产品,以及高性能存储场景。
最后面是第三个1U主板,在系统层面通过2U构建模块,支持大容量高计算场景的需求。所以刚才讲的是整个天蝎项目,也发展了很久,在中国也部署了几万个Rack,达到近百万服务器的规模,在新的AI、5G场景里,在液冷和48V供电场景里也做了新的尝试,我们也希望在这方面和OCP共同推动技术标准,应对新的挑战。
Steve Mills, Facebook Technical Lead: Facebook看到了在共同平台上构建基础架构的价值,我们可以在这个平台上分享新技术的开发
Steve Mills, Facebook Technical Lead
Bill Carter:谢谢Richard,过去八年里我们确实是从当时的标准慢慢向现在演化,当时我们是12V的标准,现在八年过去了我们变成了48V的标准,所以再次感谢丁先生跟我们分享天蝎这个项目。下面我们要有请来自Facebook的Steve Mills跟大家分享,Steve Mills在这个项目里已经工作了四五年的时间,在我们这个行业已经是很长时间了,它主要是在OCP的RACK,还有供电的项目有很多经验。
Steve Mills, Facebook Technical Lead:大家好,大家知道Open RackV3是下一代的解决方案,从今年的早些时间开始的,今天我要跟大家分享我们Open Power这个项目怎么通过OCP社区进行协作。我希望跟大家介绍一下什么是Open Rack V3,我们怎么在OCP的社区进行合作,接下来这个项目会有什么进展,首先谈一下为什么是Open Rack V3。
过去一段时间我们很迅速的扩展了我们拥有的很多技术的能力,因为技术发展非常快,这个会议室里几乎每个人都遇到了物理学基本限制相关的障碍,这些是原子级别的问题,是大家都还没有特别熟悉的领域,探索的成本越来越高。很多组件的制造商可以进行改进,但是需要很多研发支出才能实现这些收益。与这些相应的研发支出和相应的后续步骤怎么更好的控制成本和风险呢,最好的办法就是我们进行分享,这就是像OCP这样的平台的用武之地,Facebook看到了在共同平台上构建基础架构的价值,我们可以在这个平台上分享新技术的开发,Facebook V1和V2平台一开始是Facebook内部开发的,后来在后期的研发阶段进行开放研发。在这个架构里面,因为V1和 V2是内部研发的,所以非常专注于Facebook自己的需求,后来我们有Open Rack V3之后它就有更开放的社区,所以越来越多的人就可以用这个平台给自己打造适合自己的功能,我们可以在一个通用的框架下增加更多的功能,所以我们需要的这样的平台需要有一定的灵活度,这样我们的用户才能把这些功能做定制化的开发。
我们在V3里面的power架构能够有更多的灵活定制,不是仅关注Facebook的需求。我们在一些比较先进的冷却高效机制里也有相关技术的发展,希望通过Open Rack V3为更多Open Rack架构做出贡献。这就是我对Open Rack V3的介绍,Open Rack V3现在又有什么新进展呢?首先就是我刚才说的Open Rack V3不仅仅是针对Facebook的需求,而是能够为更开放的社区提供更好的功能,我们在垂直间隔里跟V2有一些变化,V2是open U 14、18毫米的间隔,V3是44.45毫米的间隔,微软、百度也有相应的需求,我们现在没有支持到EIA的宽度,只是垂直间隔这块。
第二是我们的动态定制,从V2 1400kg到V3的1600kg,第三是高度从41个openU到44×48mmopenU 或48×44.45,另外是Cabal(音)Manager,我们把它当做一个可选的工具包,通过这个可选的工具包大家可以更好的给自己做定制的开发。下面就是液体的起管,这个液体管汇Liquid Manifold (ACS)就是我刚才说的先进的冷却机制,它也放在我们的可选工具包里的功能。另外是后端数据结构,也是放在这个可选工具包里面,它也是热插拔的。它有几种可以选的方案,比如高速的铜线、高速的光纤或者低速的铜线管理主线,这个也有一些方向可以走。我们在侧边板这块,Facebook V2这块只能有空气的containment,现在到V3会有更多的安全的设置放到里面,可以选择更多安全和其他的设置。对于我们的安全而言我们增加了更多的规格,整个项目正在进展过程中。下面看一下总线的电压的值,现在不仅有12V,也有48V,这两个都是可选的。电源架既可以是之前固定的,现在在总线任何的地方都可以进行部署,它可以在不同的电源架上进行安置。
关于现在的电源架的位置,机架里面可以有一个固定的安置主要原因是它有一个螺栓,这个螺栓可以将其电源架的输入和电源架进行一个固定,对于V3而言它并不是螺栓进行连接,一旦改变了连接的方式之后,你在任何机架的位置都可以进行安装,这样你在进行部署的时候能够让客户有非常多的灵活性。当然我们还有电源架和BBU,可以让它有非常多的灵活性,它可以和BBU进行灵活的部署,比如我们BBU的容量在需要的时候可以进行不同的部署。我们也有调峰的功能,我们有关于电源架输入的部署,所以无论是在前端还是后端我们都可以对电源架进行相关的部署。传统而言,Facebook用的是5PIN的输入,到现在我们已经有了7PIN的输入,这样我求可以将PDU从机架上释放下来。我们可以看到这个功能大家已经演示过了,就是在微软的Olympus当中,也是在自己的开放机架的部署中做好的。
下面看只有一个唯一的功率区,之前有2个,Facebook在大多数情况下都会部署一个功率区。如何和更广泛的OCP的社区进行联合,对于Facebook的文化而言联合一直是我们的一部分,这就是我们认为我们和工业界的合作伙伴合作是我们工作方式的延伸,能够和业界的合作伙伴做得更好,而且在过去一些年我们一直能为社区做出自己的贡献,这也是在Open RackV3中我们一直遵循的Facebook的准则。
我们看一下这个架构究竟是怎样的。它是48V的走线和48V的IT后边的电力连接,这两个组件就可以和总件进行相关的连接,它已经是在Open Rack的部署中做好,我们特别希望你们能够用它现在部署好的方式进行使用。当然我们还和一个联合的研发项目做了Open Rack V3的机架,我们有一个热启动的液体的冷却系统,刚才咱们已经谈到了。
我们看一下电源架之所以能够有目前非常好的架构,首先我们有相关的技术规范,同时我们还有一个电源架的管理中心的控制器,我们也有一个电源架的48V的输出的连接器,它能够成为电源架和总线之间的连接,它能够使得我们的电源架在整个总线的任何位置进行部署。我们还有一个通用的7PIN的输入的连接器,刚才我给大家看到的是目前单独研究的Open Rack项目下进行研发的项目,对于Open Rack V3而言我们在今后会增加更多的功能和配置。
我们看一看下一步将会做什么呢?下一个月会召开一个工程师会议,这个会议主要是看一下Open Rack Power、先进的冷却系统、数据中心三个联合的项目,我们希望在现在部署的情况下提供一致的和可交互的方式,以便我们在进行部署的时候,比如在冷板上面的热量能够在我们的数据中心做更好的迁移,再有一个就是关于我们功率的设计,现在OCP的这些利益合作伙伴正在帮助我们取得进展,今天我谈到的这些话题如果大家感兴趣的话,我特别希望大家能够直接联系我,以便我们能共同一起工作。就如同我们现在已经取得的技术规范方面的进展已经放到了OCP的网站上,大家感兴趣的话可以随时看到。如果大家想参与这些项目的话,很显然你可以放到Make It Power邮件上面去,议程有什么变化或者我们有什么进展都将通过邮件发送给大家。这是我给大家讲的一些情况,非常感谢。