将领先的计算能力高效转化为解决前沿科学和工程问题的能力仍面临挑战。 在运行天气、海洋、制造等软件时,领先算力的实际利用率较低,这也是一个世界性问题。 超算基础软件是提高转换能力的关键之一。 国产超级计算平台支持复杂应用的全流程计算的能力也亟待提升。
郑为民,中国工程院院士。
“在正常网络条件下,将4TB数据从北京清华大学传输到国家超算无锡中心的太湖之光超级计算机江苏需要5天时间,下午就能抵达无锡。” 8月24日,在全国高性能计算学术年会上,中国工程院院士、清华大学计算机系教授郑为民谈到了当前算力互联网建设的痛点之一,也就是带宽和延迟。
国产超级计算机处于世界第一梯队,是我国的一张名片。 “我们国家上市的超算中心有13个,如何把这13个超算中心连接在一起?相当于把超算变成一个算力网,把13个超算中心连接成一台大机器,这是我们的前景,要做到这一点我们必须解决算力的互联,这需要高带宽和低延迟。” 带宽是单位时间内可以通过一条链路的数据量,时延是在传输介质时间内用于传输的数据量,但要实现高带宽和低时延并不容易,这就导致了大量数据的快递传递比网络传输更快、更便宜的情况。
郑为民表示,跨超算中心协调研发和部署战略应用的能力亟待提高。 他介绍,太湖之光数据快运业务目前试点的技术方案采用三层PON(无源光网络)弹性云专线汇聚、云互联传输4T数据。 耗时3.03小时,初步计算单次传输价格不到1000元。
此外,当前超级计算还面临基础软件生态问题,即能否将领先算力高效转化为解决前沿科学和工程问题的能力仍存在挑战。 在运行天气、海洋、制造等软件时,领先的计算能力的实际利用率只有10%、20%,甚至5%,而这也是一个世界性的问题,而差距的选择又加剧了这一差距。异构架构路线。 超算基础软件是提升转型能力的关键之一。 郑为民建议,要做好超算基础软件,提高算力的实际利用率。
目前,国内超级计算平台有多种架构。 国内不同的超算平台选择不同的架构来实现算力的跨越式发展,但应用移植和调优的工作量较大。 同一应用程序需要在不同平台上分别进行编程和优化,编程复杂度高,且程序不易移植。 因此,郑为民建议建立统一的跨平台框架,统一并行编程模型和编译优化,降低程序员开发的复杂度,一次性编程可以跨平台高效运行。
国产超级计算平台支持复杂应用的全流程计算的能力也亟待提升。 郑为民表示,大计算往往伴随着大数据。 传统超级计算过去不做原始数据处理,但现在它必须能够同时处理大计算和大数据。 同时,高性能计算必须与人工智能相结合。 过去,高性能计算解决传统科学计算,人工智能计算机处理人工智能问题,数据中心做大数据计算。 现在机器不仅要处理传统的科学计算,还要解决人工智能问题、数据预处理和后处理。 一起解决吧。”