文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

phms

http://sjzytwl.xhstdz.com/comphms/

相关列表
文章列表
  • 暂无文章
推荐文章
抖音高算力数据中心设计和创新实践
发布时间:2024-11-08        浏览次数:16        返回列表

摘要

抖音高算力数据中心设计和创新实践

在近日由CDCC主办的第11届数据中心标准大会上,CDCC专家技术组委员、抖音数据中心技术总监井汤博发表了主题为《抖音高算力数据中心设计和创新实践》的主旨演讲,根据演讲内容整理下文,供数据中心行业内的广大读者参考。

nceid='6280839747741827541' data-type='video' data-mediatype='undefined' data-authiconurl='https://dldir1v6.qq.com/weixin/checkresupdate/icons_filled_channels_authentication_enterprise_a2658032368245639e666fb11533a600.png' data-from='new' data-width='1920' data-height='1080' data-id='export/UzFfAgtgekIEAQAAAAAARjAH_lmz3AAAAAstQy6ubaLX4KHWvLEZgBPEyqM8YSk6ceOFzNPgMIvGuzgSQf96cRwsvfkWGcLf' data-isdisabled='0' data-errortips='' data-parentwidth='0' data-maxwidth='0' data-index='0' data-flag='0' data-feedfullcoverurl='https://findermp.video.qq.com/251/20304/stodownload?encfilekey=rjD5jyTuFrIpZ2ibE8T7YmwgiahniaXswqzzwACTDpBlnHfJCibVdbV5PZlN9JqOlk5OBEUCfzkIPR2WksBf1HSb9R0r3XCSKS849JT4mOhCEbEiaWXEp5Qy7cQ&bizid=1023&dotrans=0&hy=SH&idx=1&m=&scene=0&token=x5Y29zUxcibDsywviaY3hqybdQdKAm3LB73wMfgb4rvCnWd3PZSoT5eyth8QsSL7zmicXvapb4O32Q' data-feedthumburl='https://findermp.video.qq.com/251/20304/stodownload?encfilekey=rjD5jyTuFrIpZ2ibE8T7YmwgiahniaXswqz13GVdH1SLK2npkIW8rACr8ibnxCyyh7o53lh6ibxAPxOrv1sjTv1rxh85G3FiaV4UnTNRdhicT3UEaLDlX2Rb5wGPQ&bizid=1023&dotrans=0&hy=SH&idx=1&m=&scene=0&token=cztXnd9GyrE8zYHZicSFB9UDEaQGxiajH6ia5zfianQCb4jBicqtD11dEk64tT8M0LSJkl3Uk9EzHlo0' data-feedcoverurl='https://findermp.video.qq.com/251/20304/stodownload?encfilekey=rjD5jyTuFrIpZ2ibE8T7YmwgiahniaXswqz6NWzibu20ib023AriamxrcoFnRj4PxQUSBb6vohLD3VtN9fJ4XxXIaSbYqg7flJUMSWibouXs9xZNb1XkKZG6ib3bWw&bizid=1023&dotrans=0&hy=SH&idx=1&m=&scene=0&token=x5Y29zUxcibDsywviaY3hqyXqhwTKJjEkSE7v0qlacrfmQ3Qk2afLJKfhFEEI6mOYkgy8rtmTjZxs' data-isnews='0' data-likenum='6'>
本文从抖音实践和具体落地角度,包括中间的一些探索和思考,给大家做一些分享。包括四部分内容:
第一,抖音集团数据中心发展历程,以及数据中心对抖音相关业务的支持。
第二,当前在部署中面临的一些问题和困境。
第三,根据困境,在设计和创新上的规划和实施措施。
最后,简单思考和总结。
针对抖音目前遇到的高算力数据中心,概括起来就是不确定性,这是我们现在遇到的最大困境。
为什么有不确定性?这个不确定性包括两部分,一部分是固然存在的,一部分是突发的。前者包括本身业务发展带来的,比如业务可能有一些预期上的变化,比如说可能今天需要在某个地方某一个客户需要服务,明天可能有一些方面会出现变化。后者,受制于其他因素,比如说产能或者IT设备供应因素包括芯片制约,这些都为我们整个高算力集群设计和规划带来了非常大的挑战。
对于设计而言,我们在部署和实施中发现,高算力集群,比如说以GPT大模型为例,有三个主要特点:
1、资源是池化,内部高效协同。
2、负载会瞬间突增突减,可能不是体现在一个机柜、一个楼宇、一个集群甚至一个园区,这个时候远远有别于传统的设计规划。
3、网络拓扑有全新的变化,也对整个网络架构设计和数据中心之间内部外部互联有全新的挑战。
除此之外,接下来两方面也非常重要。
一方面,由于大模型网络和带宽限制,一个集群规模非常大,以某虚拟的园区和典型楼宇作为示意,有可能一个园区一百二百甚至更高兆瓦级别的容量,对于每一个楼宇达到40、50、60兆瓦的容量,这样它的高密度,超高容量部署对我们设计规划挑战是非常大的。
另一方面,针对每一个机房交付模式,它会存在两个维度的混合:第一,既有大模型高算力集群,同时也会有一些配套区。第二,由于它的到货部署节奏,还是存在不同种服务器业务混合,对我们设计规划和交付模式也会带来新挑战。
除了以上两个特点之外,还有两个也非常突出,第一,业务导致负载突增突减非常明显,这是实际运行某算力集群的负载率。仔细看可以发现,不同的机柜,它们变化趋势相近,会同时变化。并且变化非常频繁,幅度非常大,这种特点在常规业务中是非常罕见的,这时候对我们整体规划设计,楼宇每一个层级制冷和电气包括监控设计,都是有非常大的挑战。
第二,右面可以看到,这种以高算力大模型或者是相关服务器为载体的IT设备,对温度变化特别敏感,因为它的算力密度很高,发热量很大,所以它就需要更多的风扇和其它设备解热,这些也许在常规温度下是OK的,但随着温度升高,或者某种异常情况之下导致风扇满转,风扇占比会非常大,从最低的只有8千瓦升到10千瓦以上,这2千瓦其实就浪费了,这对能源消耗都是非常明显的。

Part.3/ 设计和创新上的规划和措施

上面介绍了抖音遇到的困难,接下来讲讲抖音如何解决这些问题。
抖音内部对于技术方案和设计选择的基本逻辑,基于两大因素,一个是限制的因素,一个是可选的因素。
限制的因素,是我们自己没有选择的,比如上游IT限制和选址,这部分更多出于业务角度。另一方面,我可以选择的,也就是到底要追求一个什么样的数据中心。基于这两点,在我们已有选项中进行选择和综合,最终我们会在项目中落实,在落实中去评估项目结果,包括进度、成本和可靠性等综合维度。反过来我们还会复盘优化决策流程和设计标准。在这中间考虑几个维度,有可靠性、技术制约、成本制约、可持续的限制等。
这一页是我们正在进行的“技术套餐化”探索。很多人一直问我,抖音到底未来想走什么样的路线?风冷、液冷、直流、交流还是其他架构?我在每次回答时都在思考一个问题,难道真的是一个技术就会影响一个业务吗?其实不是,对于业务而言,它真正需要的是,在一个有限条件和需求情况下,我们给出一个最合适的解决方案。我就参考了一下之前的产品或者服务器所谓叫套餐化的思路。我们会把可选的或者是即将研发的技术都列在清单里,进行标准化的套餐,按照机柜功率、区域、应用规模、电气架构、制冷架构、结构形式、支持服务器和特殊要求包括版本迭代等等,把这些进行综合,这样当我呈现给需求方的时候,呈现的不是一个点而是一个有价值的矩阵。这个事情折射到高算力数据中心,比如以大模型为例,我可以举两到三个例子。
比如说对某国内的机房,如果它的规模比较小,而且它是存量的机房并且在北方地区,那么就没有必要进行很大的改造,用传统的技术即可,而且非常务实而且经济。
另外,对于某海外深入定制的数据中心,这时候我们可以结合对当地资源和电力最佳实践,给出一个更高效更快速交付的模式。
第三种,未来为了追求低碳环保,可能给出更好的高密度风液兼容,包括机柜级别的调峰。
我想说的是,抖音更多会从全局出发,为大家提供一个解决方案。
接下来是我们设计上的几个关注点,一个从暖通上,我们对散热瓶颈怎么把控。电气主要是持续高负载下,我们设计如何应对,运维保障上,如果一旦出现问题任务如何进行快速迁移。最后关于灵活性兼容,不同业务的中/低/高密度的兼容。
针对上面设计方案,我们认为,如果要兼容,本质上要完成如下几个方面:一个兼容高算力服务器的风冷和液冷,同时兼容传统液冷服务器和传统风冷服务器,本质上得益于我们要响应业务快速需求变化还有服务器不同套餐类的配比,还有不同种服务器代继的演变和上线节奏。
这个方案是我们简单示意了一下,所谓兼容是怎么做的?单纯从Core和Shell来看,有四个维度。机柜侧,预留一些适当的空间给机柜电气制冷。同时在列级,也会前期规划预留空间,就算未来有一些低密度业务上线,也可以让它非常好兼容。对于房间级,会多留一些包间和空间,就算有一些变动,也能非常好比较低成本兼容业务。室外的空间,还有电力桥架也会预留足够空间给未来的机电设备。
我们最近也在思考交付模式。之前大家一直探讨怎么设计?怎么研发?没有太关注交付模式对整体基于大模型或者基于高算力数据中心的影响。在实践中我们发现一个非常重要的点,传统的模式,更多一次性交付到机柜,开始规划好就建设。这里有三个维度,一个成本投入,一个交付节奏,一个兼容程度。一次交付到机柜,从成本和交付上都是相对可控的,但它有一个最大的痛点,就是灵活性非常差,一旦发生变动,它会发生重大的变更,这部分不仅对于合作伙伴还是用户都是非常大的挑战。
最极致,所有的都是分别交付,先建土建然后等着业务放需求,一步一步建,周期又太长,浪费空间也浪费一些精力。权衡中我们发现一个基本模式,叫标准化的Shell+Core,前期把标准化的建设Shell,包括把共用的部分,比如室外的柴发、市政建筑做一个标准化的设计,设计的时候就要考虑到里边放不同种的业务和模块,这部分相对投资是可控,我可以等着,等某一个时间业务触发,快速交付模块化IT Core,兼容不同种类的业务,相对而言,它的成本和交付进度可控,同时还具有比较好的业务兼容性。同时利于后面在交付期间发生了一些业务迭代或者分期部署,可以非常好兼容。
接下来介绍一下关于抖音对于技术创新的思考。包括四部分,即液冷服务器、弹性供电和分布式储能、风冷侧的技术,以及能效优化。
液冷和负压部分,抖音在传统服务器液冷已经广泛应用,不管从规模还是适用范围都用得比较多,而且对于冷板式液冷,的确它的兼容性和成本收益还是有它的优势和价值。对于高算力,特别是大模型GPU会面临全新的情况,优势很明显,风险也很高。它的优势体现在什么?正如刚才提到的,传统风冷GPU的风扇占比太高了,单个算力所摊的电力成本非常高,而且这部分是无用的损耗。用液冷之后,可以大幅降低风扇损耗,我们测算过,H800和H100的NVIDIA的GPU和Host主机,改为冷板式液冷,至少把它的功率降两个千瓦左右,相当于我们在同样资源下资源利用率提升百分之十几到20%,这是一笔非常大的收益。然而有收益就有代价,代价就是泄漏风险,因为它很复杂,连接数目多,一旦泄漏精密仪器就会损坏。负压的液冷系统我们已经开始研究,希望大家积极参与,一起共建。
针对电气,也是基于大幅突增突减,我们认为有三个化,平面化、超电化和弹性化。平面化就是结合混布不同业务保证负载的均分;通过分布式储能解决超电化,比如说利用峰谷电价和峰谷负载,通过分布式锂电解决这个问题。另外,逐级从机柜到列到机房有不同层级的电力弹性设计,保证设计可以在不同的峰谷波动时候提供更加稳定电力供应。
最后,在风冷和控制方面,我们认为传统的房间级空调可以解决高密度问题,然而在实际部署中发现这并不是一个优选,还是要选择一些近端冷却,比如我们目前已经跟比较多合作伙伴大量配合的近端风墙,这种方案有什么好处?第一,比较快的移除服务器热量。第二,大模型集群或者高算力集群的波动非常频繁,需要近端捕捉热量,再结合控制方面的优化,超前调控,包括直接采取电力资源,列头柜耗电量控制系统及阀门等器件的优选,硬件和软件结合才可以较好的应对。
另外,全链条上优化能效,前两部分大家很清楚,比如说芯片怎么发挥它的价值,低温下怎么让它性能优显著提升,特别是液冷,服务器怎么优化它内部散热,让它可以支持更高的温度或者更低风扇转速。最后则是技术和商务结合,有的时候大家之所以不敢优化能效,是因为它有一些商务制约,有的时候大胆一些,分期分区分季调控,让大家各取所需,既节省了能源又提高了效率,又让机房有更高效的产出,何乐而不为?
下面简单举了两个实践的例子,一个是在中国的,一个是在海外的。
中国的是在北方,这个集群就是传统的,利用相对传统风冷架构10千瓦的机柜。它是比较高效快速部署而且成本可控的解决方案,同时在这个项目中也开始探索控制系统的优化,怎么样响应高算力需求。
另外是在海外大规模的探索,楼已经搭起来了,里边混合正常业务和高算力集群,而且既有风冷也有液冷,机柜密度是高密度机柜,我们进行了大量兼容性设计。