第三届 高性能计算环境运维与优化论坛

2018年10月19日下午 14:00-17:30 山东省青岛市崂山区苗岭路9号 国际会展中心 7号馆7101A会议室

论坛简介:

      随着规模的不断增大、新型体系结构的快速发展,高性能计算环境的系统运维和优化面临许多挑战性问题,这需要高性能计算机系统的研制单位、运行管理团队、用户共同努力参与解决。论坛邀请来自国内多家超算中心和高性能计算机研制方的一线专业人员,从研制和使用两个角度交流对高性能计算环境的系统运维和优化的认识,向学术界提出基础性的问题,向产业界提出具体需求,让应用单位相互交流经验,以期促进我国高性能计算机运维水平的提高,更大地发挥高性能计算机的使用效能。论坛交流内容包括但不限于体系结构、系统软件、功耗控制、性能优化、运行稳定性等内容。

参会人员

武林平 北京应用物理与计算数学研究所 特聘研究员

个人简介:武林平(1977-),男,博士,特聘研究员,北京应用物理与计算数学研究所高性能计算中心副主任。主要从事高性能计算环境的性能优化和高效系统管理软件的研究工作,主要研究兴趣包括高性能计算机性能模型及系统评测、系统运行稳定性及容错机制、多核多处理器计算结点操作系统行为建模与优化、并行程序性能分析方法与工具等方面。发表高性能计算相关的学术论文10多篇,负责国家自然科学基金青年基金1项,获军队科技进步一等奖、二等奖各1项。wlp@iapcm.ac.cn

讲者(一)

 

王昉 中国空气动力研究与发展中心计算空气动力研究所 计算中心主任

报告人信息: 王昉,男,42岁,毕业于国防科技大学计算机学院,博士学位,近5年来,在国内外期刊及会议上发表流场可视化、高性能计算等方面的论文10余篇,现参与国家重点研发计划课题1项,军民融合工程项目1项,国家自然科学基金1项。2015年担任计算中心主任,负责高性能计算机与配套系统的建设及运维管理、大规模流场可视化算法研究、自主流场可视化软件研发、CFD并行技术研究、人工智能技术应用等工作。

报告题目: 气动中心国产自主高性能计算机的运维管理及应用介绍  

报告摘要:中国空气动力研究与发展中心计算空气动力研究所主要从事流体力学方面的数值模拟任务,2016年,中心引进国防科大自主研制的峰值性能为1260万亿次高性能计算机,由计算中心负责运维管理。本报告介绍这套计算机的基本架构和特点、使用和运维的经验,并就如何更好地提升运维管理水平、提升使用效能、满足用户超大规模数值模拟需求方面谈一点看法。

讲者(二)

 

张武生清华大学、国家超算无锡中心

报告人信息: 杨斌,博士生,目前就读于山东大学计算机学院,国家超级计算无锡中心工程师。研究方向是大规模计算系统的监控与优化。自2017年参与了面向神威太湖之光的存储系统监控与优化工作,解决了众多并行应用在大规模系统上运行遇到的问题,保证了系统的高效运行。其所属成果发表在国际顶级会议FAST,NSDI上。张武生,2003年获得清华大学计算机系统结构博士学位。2005年起清华大学计算机科学与技术系工作。主要从事高性能计算、分布式处理以及信息服务等方面的研究。目前负责清华大学高性能计算平台,国家超算无锡中心的系统运行和支持等工作。参与和承担多项国家“863”,“973”,“重点研发计划”课题,研发了面向异构计算集群的可定制数据中心操作系统,在多台大型科学计算集群的运行中发挥了重要作用。

报告题目: 面向异构多集群的数据中心操作系统  

报告摘要: 面向计算大型数据中心一般配置多种不同架构的硬件设备,其运行即要求有强一致性,又希望保持高度的灵活可定制性。为满足这一要求,需要考虑定制一套通用性好、定制性强操作系统基础设施环境。为此开发了面向数据中心异构多集群的可定制操作系统。该系统可以固件化的形式提供驱动集群运行的单一映像操作系统,解决大型计算设施运行中所需的高可靠、高可用、高可信、高可维护、高度融合等系列问题。

讲者(三)

 

田鸿运  北京应用物理与计算数学研究所 助理研究员

 

报告人信息: 田鸿运,CCF会员,中国工程物理院研究生院在读博士,北京应用物理与计算数学研究所助理研究员。主要从事高性能计算机系统管理及优化研究,主要研究方向为HPC系统评测、HPC系统运行可靠性建模、HPC系统监控及可视化、HPC系统环境性能优化,当前重点研究HPC互联通信系统的可靠性建模与评测,发表相关学术论文及专利十余篇。

报告题目: 应用负载特征导向的HPC系统评测方法  

报告摘要: 对高性能计算机系统的充分评测是高效使用高性能计算资源的前提,客观评价高性能计算机系统与应用计算资源需求的匹配度是指导高性能计算系统设计方案的重要参考。本报告结合我单位数值模拟应用的运行特征,分享对某国产高性能计算机系统进行全方位评测的方法和策略。

讲者(四)

 

段晓辉 山东大学、国家超级计算无锡中心 博士生、研究科学家

 

报告人信息: 段晓辉,山东大学软件学院在读博士,CCF会员,自2015年起从事基于神威·太湖之光的高性能应用优化与基础工具研发。曾获ACM-ICPC区域赛金奖(2011年),并行应用挑战赛优化组银奖(2016年)等竞赛奖项。作为核心骨干参与的基于太湖之光的千万亿次级大气模式优化项目入围戈登贝尔奖(2017年),负责了基于神威太湖之光的LAMMPS重构项目(2017年-2018年)。以第一作者或通讯作者在CCF A类会议SC上发表论文2篇。

报告题目: SWPF-基于国产众核处理器SW26010的细粒度性能采样工具  

报告摘要:性能采样工具是高性能计算工具链中重要的一环,对指导应用性能优化有关键作用。目前基于国产众核处理器SW26010的性能采样工具主要有JPerf和性能计数器接口,其中JPerf是作业级采样,难以进行更为详细的性能分析,而性能计数器接口需要手动插桩。为此,我们设计并实现了SWPF——一套面向SW26010处理器的,包含完整的“采样-后处理-可视化”流程的细粒度性能采样工具,利用该工具可以有效地捕获应用程序在众核并行环境下的性能特征,方便地分析和定位国产众核处理器上和国产超级计算机上的应用热点和瓶颈。本报告希望能得到与会专家的反馈和建议,也希望对后续基于国产众核处理器性能采样和分析工具的设计和开发起到促进作用。

讲者(五)

彭林  国防科技大学计算机学院 助理研究员

 

报告人信息:彭林,博士,国防科技大学计算机学院计算机研究所工作,曾先后参与银河与天河高性能计算机等国家重点型号工程、核高基重大专项国产处理器编译器及工具链和多个863编译领域重大专项研制工作,主要完成了面向处理器微系统结构的编译优化、迭代编译优化和编译器正确性验证等工作,先后共获得军队科技进步一等奖2项、军队科技进步二等奖1项、湖南省科技进步二等奖1项,发表论文多篇。目前关注面向国产飞腾处理器的集成开发环境,含并行程序编辑环境、优化编译器、大规模并行调试工具和性能分析工具等。

报告题目: 面向飞腾高性能处理器的编程环境  

报告摘要: 随着申威、飞腾、龙芯等高性能国产处理器不断发展和推广,适用的编程环境的重要性日益凸显。与大规模投入后形成的成熟商业芯片编程环境不同,国产芯片的生态系统相对薄弱,用户的使用体验效果一般,必然会影响用户对国产芯片的使用热情,需要引起我们的重视。我们将介绍国产飞腾高性能处理器的编程环境,包括编程语言支持、编译优化、并行调试工具和性能分析工具。与大家探讨目前我们遇到的困境和可能的应对措施。

讲者(六)

 

景翠萍 北京应用物理与计算数学研究所 助理研究员

 

报告人信息:景翠萍,毕业于西安交通大学计算机系统结构专业,硕士,北京应用物理与计算数学研究所助理研究员。2012年至今一直在北京应用物理与计算数学研究所高性能计算中心从事软件研发与系统维护工作。目前从事大规模数值模拟应用性能测量与分析工作,主要研究方向为并行程序性能问题诊断、并行程序集成开发环境。以第一作者在一些国际会议、国内会议及刊物上发表相关学术论文5篇。

报告题目:大规模并行程序性能分析方法及实践  

报告摘要:机群和多核技术的发展为并行计算提供了硬件平台。然而,编写一个高效的并行应用软件是非常困难的,很多软件都有大量的性能缺陷,例如负载不均衡、通信开销过大、同步等待等,这些严重影响了系统的资源利用,使程序达不到预期的性能。为了克服这些问题,及时对并行程序进行性能分析是十分重要的。目前针对大规模并行程序的可扩展性问题、MPI通信中的同步等待问题以及计算负载不均衡问题,我们借助主流性能分析工具hpctoolkit及scalasca建立了一套性能问题诊断方法,并将其应用到几个实际数值模拟应用中。实验结果表明,这种方法可以有效的定位性能瓶颈,并指出导致性能问题的根本原因。

日程安排

序号

时间

报告题目

讲者信息

主持人

1

14:00:-14:35

气动中心国产自主高性能计算机的运维管理及应用介绍

王昉

中国空气动力研究与发展中心计算空气动力研究所 计算中心主任

董勇

国防科技大学计算机学院 副研究员

2

14:35:-15:10

面向异构多集群的数据中心操作系统

张武生

清华大学、国家超算无锡中心

3

15:10-15:45

应用负载特征导向的HPC系统评测方法

田鸿运

北京应用物理与计算数学研究所 助理研究员

4

15:45-16:20

SWPF-基于国产众核处理器SW26010的细粒度性能采样工具

段晓辉

山东大学、国家超级计算无锡中心  博士生、研究科学家

薛巍

清华大学计算机系副教授

5

16:20-16:55

面向飞腾高性能处理器的编程环境

彭林

国防科技大学计算机学院  助理研究员

6

16:55-17:30

大规模并行程序性能分析方法及实践

景翠萍

北京应用物理与计算数学研究所 助理研究员

 

交流会现场