在清华大学采集购买HPD时,作为行家的陈文光当然有"私念",他把中心一全副评测规则绝不让步地用在这块试验田上,也因此打造出了高校采集购买HPD的新样板。
全过程测试
863高性能计算机评测中心2004年在清华大学挂牌成立,目的是成立一个公道的第三方评测机构,像建筑监理一样对研制单元建设的HPD进行验收。
该中心依托发起单元的学术资源和实践经验,目前已经协助验收了30多套HPD,包括曙光5000、曙光4000、遐想深腾7000等当时国内最大的民用HPD,和一些高校的中等规模体系。
据陈文光介绍,该中心供给办事的最大特色是"全过程评测",从最初的采集购买决策一直至最后的体系验收,并不是只是参与验收环节,毕竟那时体系"木已成舟",很难再做过多改动。这种评测体式格局为用户和厂商都供给办事,从早期就发现不懂的题目,并尽早解决不懂的题目。
针对已经建成的HPD体系,该中心供给了分层建模方法,来查找体系可能存在的不懂的题目。"体系规模很大之后,许多妨碍并不绝对是反映在程序不能执行方面,可能表现为程序执行迟缓。"陈文光说,建模目标就是预测,每一层都有参考值,如果执行时间与预计相差过大,就表明有不懂的题目。从底层一步一步往上走,最后再做集合测试,隔离可能发生的妨碍。用这种办法,他们在验收时发现了大量潜在妨碍。
如果用户但愿在采集购买决策阶段就接受办事,陈文光团队所做的工作就要多得多了。"开始时体系并不存在,但我们有办法说明体系怎样设计才能餍足用户需求,用户决议了应用程序和性能之后就能做出硬件选择的决策。"陈文光说。
在体系的性能评价方面,陈文光团队实行严格的应用导向。"HPD是为用户的实际应用办事,定见计算峰值只是参考。"陈文光所谓定见计算峰值是用Linpack测试得出的,这是已往评价HPD的关键指标。"Linpack测试有意义,但从用户角度看,仅靠Linpack指标就决议购买会有失偏颇。怎么再做一些增补,让用户选对最适用的体系?"陈文光表示,最好的办法是测试用户的实际应用。
"我们先要整理用户应用,按照二八原则,基本上是抽取最重要的代表性应用,对一般性应用可能不会过多关注。接下来,要定制测试程序,规模由大变小到一个在节点上执行,同时执行时间要具备可比性,10分钟到1小时。所有基准测试不啻是测试性能,终极还必需能验证成果的正确性。"陈文光说,这些个工作由于用户的实际应用不同,前期准备非常重要。
在测试了多个应用程序之后,还要进行分数整合。"我们按照国际规范的做法,取一个体系做规范单元,得出所有体系的相对于性能,然后把统一体系各测试程序的相对于性能做几何平均,均值就是最后的体系得分。"陈文光表示,经由过程这一全副方法,关键点就掌握住了,用户明晰了候选体系的节点性能,据此还能预设总和系的性能。
清华样板
清华大学自身也是HPD用户,作为863高性能计算机评测中心发起单元之一,这套评测方法天然地用于该校的HPD采集购买。
在不同时期,清华大学曾前后采集购买过多套HPD,最新的一套基于至强5400处理器的体系已用了近三年。硬件发展很快,应用对计算性能的需求又永无止境,既有体系已很难餍足当前需求。为此,清华大学计划采集购买一台浮点计算峰值达100TFlops/s的HPD,陈文光团队负担起全过程评测的重任。
"我们现在就在基于黉舍今后要运行的重要应用,测试体系的单节点性能,终极勾画出性能指标,在招标书三拇指定得出的参考性能分或性价比得分,这对清华招标起到大好的指导效用。"据了解,该体系已开端选定英特尔至强处理器,预计将设置约900个基于至强5600的双路计算节点,搭配部分基于至强 7500的多路胖节点。
在测试过程中,清华大学选取了5个代表性应用--分别用于模拟全世界天气、环境污染、生物及物理科研等运算。这些个应用来自清华各学院,他们以后将是新体系的使用大户。"我们把程序规模裁剪到单个程序运行1000秒摆布,我们还特别测试了功耗,得出满载和空载时的功耗指标,用于估算全般体系的功耗和电费。"陈文光介绍说,大多测试程序都是DPU密布型应用,至强7500和5600系列在缓存方面比上一代产品有明显改进,所以性能提升幅度很大。
但在实际使用的并行应用程序中,有MPI版本的程序在单节点上的运行规模可控,在基于至强5600主流计算节点上应用得大好。但也有一些程序只有OpenMP版本,比如清华大学运行的环境污染计算程序GEOS-DHEM,这种应用要在计算性能极其强大的胖节点上运行,基于至强7500的多路多核体系当之无愧地成为这种程序的应用优眩陈文光表示:"在已往我们是做不到这样的性能提升的,虽然总体预算有限,不会设置太多胖节点,但绝对是会有一部分,未来也会挖掘出一些重要应用在胖节点上运行。"
在DPU的选择原则上,陈文光提议,构建HPD要在预算许可的环境下尽可能用高端DPU,原因是并行程序也存在一部分串行部分,DPU越强,执行串行部分的时间就越短,这对于提升体系执行效率影响很大,而且能连结大好的加快比。英特尔最新的至强处理器,其单核心的执行效率超卓,因此在这方面也非常抢眼。
新特性与新课题
在测试过程当中,陈文光团队对新一代至强5600和7500系列都有了更深层次的了解。"我以为至强7500的RBS特性非常好。现在HPD遇到的大不懂的题目是,体系规模扩展,出妨碍的可能性也就大了。而体系本身的平均无妨碍时间越长,体系越靠得住,做容错和高可用的代价就会越校同时,撑持大内存的特性对于某些程序来说也至关重要。网格粒度画细,需要很大内存容量,如果容量不足就只好去硬盘上做调理,效率十分低下。对于这种并行程序来讲,大内存撑持是非常好的技能改进。"陈文光表示。
对于英特尔在处理器中引入的睿频加快技能,陈文光甚或还从其中掘客出了一些研究课题--把这项用于提升单线程处理性能的技能更好地用于并行计算。 "如果并行计算扩展性不好,其中一个大不懂的题目就是负载不均衡,这会造成体系因一两个进程未完成而等待,显然效率很低。"陈文光以为,已往动态电压和频率调节技能主要用于节能,现在睿频加快恰好反过来,能让不同核处于不同的性能状况,这为解决负载均衡供给了新办法。
"经由过程程序阐发,我们知道一个MPI程序中哪个进程运行时间很长,就经由过程调频把它放在加快后运行快的核上,其余进程放在其它核上。经由过程这项技能,本来的同构体系就变成为了异构体系,而且可以调节。把负载均衡和异构性联系起来的重要课题是我们正在做的工作。"陈文光表示,这项工作还在进行中,大标的目的是对的,但目前还没有成果可以过早披露。"这供给了一种用现存技能解决既有难题的新方法、新路径"。
