第四届 高性能计算环境运维与优化论坛

2019年8月23日下午14:00-18:10 内蒙古呼和浩特市如意开发区如意和大街58号 乌澜大酒店 11号会议室

论坛简介:

      随着规模的不断增大、新型体系结构的快速发展,高性能计算环境的系统运维和优化面临许多挑战性问题,这需要高性能计算机系统的研制单位、运行管理团队、用户共同努力参与解决。论坛邀请来自国内多家超算中心和高性能计算机研制方的一线专业人员,从研制和使用两个角度交流对高性能计算环境的系统运维和优化的认识,向学术界提出基础性的问题,向产业界提出具体需求,让应用单位相互交流经验,以期促进我国高性能计算机运维水平的提高,更大地发挥高性能计算机的使用效能。论坛交流内容包括但不限于体系结构、系统软件、功耗控制、性能优化、运行稳定性等内容。

参会人员

武林平 北京应用物理与计算数学研究所 特聘研究员

个人简介:武林平(1977-),男,博士,特聘研究员,北京应用物理与计算数学研究所高性能计算中心副主任。主要从事高性能计算环境的性能优化和高效系统管理软件的研究工作,主要研究兴趣包括高性能计算机性能模型及系统评测、系统运行稳定性及容错机制、多核多处理器计算结点操作系统行为建模与优化、并行程序性能分析方法与工具等方面。发表高性能计算相关的学术论文10多篇,负责国家自然科学基金青年基金1项,获军队科技进步一等奖、二等奖各1项。wlp@iapcm.ac.cn

讲者(一)

 

高江 腾讯数据中心产品总监

报告人信息: 高江07年加入腾讯,现任腾讯数据中心产品总监,在腾讯基础设施自动化运营方面拥有超过12年的经验,带领团队建立了腾讯的海量服务器运营平台以及数据中心自动运营平台,这些平台大量运用自动化、智能化技术,集中管理了腾讯遍布全球的数据中心,支撑了腾讯超过百万台服务器,为腾讯业务的发展提供了全方位的保障。

报告题目: 腾讯为HPC打造了高性能低成本的新“家” 

报告摘要:随着高性能计算需求的爆发式增长,作为HPC运行环境的最底层——数据中心层也面临了巨大的挑战。需求暴增的同时,规模也呈现两极化,既有超大规模数据中心,同时也有星罗棋布的小型边缘数据中心。腾讯立足互联网业务需求特点,创造性地提出了Tblock数据中心架构解决方案,可以像搭积木一样建设数据中心,从而满足不同规模的需求。辅以腾讯智维数据中心管理平台提供卓越的自动化、智能化手段,实现了真正高性能低成本的智慧数据中心。

讲者(二)

 

杨斌 山东大学,博士生;国家超级计算无锡中心,工程师

报告人信息: 杨斌,博士生,目前就读于山东大学计算机学院,国家超级计算无锡中心工程师。研究方向是大规模计算系统的监控与优化。自2017年参与了面向神威太湖之光的存储系统监控与优化工作,解决了众多并行应用在大规模系统上运行遇到的问题,保证了系统的高效运行。其所属成果发表在国际顶级会议FAST,NSDI上。

报告题目: 神威太湖之光银鱼存储系统的分析与优化 

报告摘要: 存储系统是高性能计算系统的重要组成部分,并已经成为大量应用课题的性能瓶颈。随应用创新和系统规模的不断扩大,对有效地诊断应用I/O问题和存储系统性能问题提出了越来越迫切的要求,而存储路径长、竞争点多,往往对定位问题带来进一步的挑战。本报告通过自主设计的监控系统Beacon,对神威太湖之光超级计算机进行了长期的I/O行为监测,利用所得到了的大量数据发现了在神威太湖之光上的来自应用和系统不同层面的I/O问题,给出了相应的解决方案,为高性能计算系统的存储方案设计和运行优化提供了借鉴。

讲者(三)

 

吴利  青海大学

 

报告人信息: 吴利,青海大学计算机系教师,主要研究方向为不确定性分析。参加过国家重点研发计划“地球系统模式公共软件平台研发”以及国家重点研发计划课题“基于高分辨率气候系统模式的无缝隙气候预测系统研制与评估”等项目。针对地球系统模式的高代价等特性,设计了单目标、多目标、物理约束的代理模式优化平台,在高性能计算应用的不确定性量化领域有深入的研究。

报告题目: 面向地球系统模式的物理方案参数不确定性分析研究 

报告摘要: 地球系统模式是气候变化定量化研究和气候预测的重要仿真工具,也是重要的高性能计算应用之一。其次网格物理过程中存在的不确定参数是影响模拟精确性的关键因素之一。如何对运算代价极高的地球系统模式进行不确定性参数分析和优化是提升模式模拟技巧、提高对物理机制理解和气候预测水平的重要方法。本报告首先总结了不确定量化分析方法和研究现状,以及其面临的根本挑战。进一步,以地球系统模式应用为例,介绍了敏感性分析、参数筛选、参数优化等不确定性分析方法在多个地球系统模式上的应用进展。

讲者(四)

 

汤善江 天津大学智能与计算学部,副教授

 

报告人信息: 汤善江,现任天津大学智能与计算学部副教授,硕导,天津大学青年骨干教师。2015年博士毕业于新加坡南洋理工大学,本科与硕士分别于2008年和2011年毕业于天津大学。研究方向主要为高性能计算、云计算和大数据分析与处理。在SC、TPDS、TSC、TCC和ICS等国际顶级期刊和会议上发表论文30余篇,主持国家自然基金1项,天津市自然基金重点项目1项。

报告题目: 高性能计算平台的任务调度与优化 

报告摘要: 目前我国的超级计算机、云计算平台越来越普及,其装机数量、峰值性能快速增长。但在实际运行过程中,这些高性能计算平台存在资源利用率不高的现象,极端情况下有的平台平均资源利用率只有10%左右。分析发现,资源利用率低的原因包括两个方面:1)为了支持可能的容灾和峰值,存在大量的冗余机器;2)计算资源的异构性和不同应用任务对于资源的不同需求,导致易存在大量的资源碎片。通过允许不同应用任务混合共享计算的方式是有效提升系统资源利用率的手段。然而,合理的资源分配与任务调度是影响整体系统性能的关键。在本次报告中,首先介绍任务调度与优化在高性能计算中的作用及意义;然后,重点介绍任务调度的思想及其相关框架;接下来,详细介绍近8年来我们在任务调度方面的研究工作及进展;最后,探讨人工智能与调度的融合,包括调度智能与智能调度。

讲者(五)

张峰 中国人民大学 讲师

 

报告人信息: 张峰,中国人民大学讲师,中国计算机学会高性能专业委员会委员。2017年毕业于清华大学,北京市优秀毕业生,清华大学计算机系优秀毕业生,同年加入中国人民大学数据工程与知识工程教育部重点实验室。研究方向包括高性能计算、高性能数据库,主要研究利用高性能计算技术加速大数据处理相关应用程序。在ICS、VLDB、CGO、ICPP、MASCOTS、TPDS、CCF THPC、Journal of Supercomputing等国际会议、期刊发表多篇论文。目前获得国家自然科学基金青年基金、商汤基金等项目。

报告题目: 异构融合处理器的性能优化研究 

报告摘要: 将CPU和GPU集成到一个芯片进行混合运行是高性能体系结构研究发展的重要方向之一。然而,多种设备相集成也带来了编程和系统优化方面的巨大挑战,前期研究表明,将负载简单地划分给CPU和GPU混合运行的方法,在资源利用率、性能等关键指标方面都表现不佳。因此,针对如何使CPU和GPU高效地混合处理不同特性的负载是一个亟待解决的科学问题。本次报告围绕在异构融合处理器上的性能优化这一主题所具有的挑战、洞察、方法、及解决思路展开讨论。

讲者(六)

 

曹焕琦  清华大学 博士生

 

报告人信息: 本科于中国科大就读计算机科学与技术系。2016年,大学本科三年级时作为副队长随中国科大队参加SC16学生超算竞赛,获LINPACK & Overall双项冠军;次年随安虹老师开始接触神威·太湖之光,进行其上的应用优化。2018年于清华大学访问进行毕业论文工作“神威·太湖之光上的大规模原地整点排序算法”,同时参与了林恒博士的神威·太湖之光上的通用图计算框架“神图”工作,为“神图”定位了数个性能瓶颈并加以解决。“神图”于当年进入戈登·贝尔奖候选名单。

报告题目:神威太湖之光上通用图计算框架“神图”中性能问题的定位与解决 

报告摘要:“神图”是一个在神威·太湖之光超级计算机上的通用图计算框架。“神图”主要针对现实中大规模图数据的处理,在极大规模下达到了优秀的可扩展性,能够在太湖之光整机上35秒完成具备70万亿边大图的一次PageRank迭代,或8.5秒完成具备12万亿边真实中文网页图的一次PageRank迭代。“神图”为了充分挖掘神威·太湖之光上申威26010异构处理器的并行性能,设计了一个和硬件结构紧密对应的异步流水;通过算法改进和先后定位若干个流水线上的性能瓶颈,“神图”在太湖之光整机上的性能得到了约2.5倍的提升。

讲者(七)

 

刘伟峰  北京应用物理与计算数学研究所博士后,助理研究员

 

报告人信息: 刘伟峰,工学博士,北京应用物理与计算数学研究所博士后,助理研究员。2016年毕业于山东大学计算机科学与技术学院,获得计算机系统结构博士学位。研究方向为片上网络优化以及超算系统并行I/O调优,主要集中在构造以及测试新的片上网络拓扑以及对并行应用集合I/O操作的性能进行建模和优化。以第一作者发表学术论文9篇,包括CCPE,IPDPS, HPCC等国际期刊会议,申请发明专利2项。

报告题目:超算系统中基于拓扑感知的集合I/O操作优化研究 

报告摘要:超算系统中应用常通过集合I/O读写数据,集合I/O采用两阶段优化机制,其执行过程可划分为数据交换及读写阶段。由于通信网络以及文件系统由所有应用共享,应用在数据交换以及读写阶段竞争通信网络带宽会导致其I/O性能下降。由于进程与计算资源之间的映射关系对作业通信性能有较大影响,因此在优化集合I/O操作时应将映射结果纳入考虑范围。对于执行集合I/O操作的作业,本研究拟分析集合I/O操作的经典优化机制,改进操作的I/O代理进程选择策略,最后设计拓扑感知的优化方法

讲者(八)

 

喻杰  中国空气动力研究与发展中心 计算中心,助理研究员

 

报告人信息: 喻杰,中国空气动力研究与发展中心计算中心助理研究员。2018年博士毕业于国防科技大学,硕博期间在国家超级计算天津中心开展课题,主要研究超算集群性能优化、存储系统等领域。在ICS、Journal of Supercomputing、CCPE、ISPA、HPCC等国际会议与期刊上发表多篇论文。

报告题目:超算系统的性能监控与I/O优化 

报告摘要:性能监控系统之于超级计算机,犹如CT扫描仪之于人体,它可以将隐藏在深处的信息暴露出来,方便管理者全面掌握系统状态,发现问题,并对症下药。本报告旨在分享我们从超算性能监控数据中观察到的一些现象,并探讨其对超算系统的研制和运维带来的影响。最后针对发现的I/O性能瓶颈问题,介绍新型I/O转发结点映射机制,该机制已部署在生产系统上并长期稳定运行,实践表明其可有效均衡I/O负载,提升并行I/O性能。

日程安排

序号

时间

报告题目

讲者信息

主持人

1

14:00:-14:30

腾讯为HPC打造了高性能低成本的新“家”

高江
腾讯数据中心产品总监 

薛巍
清华大学计算机系副教授

2

14:30-15:00

神威太湖之光银鱼存储系统的分析与优化

杨斌
山东大学,博士生;国家超级计算无锡中心,工程师

3

15:00-15:30

面向地球系统模式的物理方案参数不确定性分析研究

吴利
青海大学教师

4

15:30-16:00

高性能计算平台的任务调度与优化

汤善江
天津大学智能与计算学部,副教授

翟季冬
清华大学计算机系副教授 

5

16:10-16:40

异构融合处理器的性能优化研究

张峰
中国人民大学,讲师

16:00-16:10  茶歇(10分钟)

6

16:40-17:10

神威太湖之光上通用图计算框架“神图”中性能问题的定位与解决

曹焕琦 
清华大学,博士生

7

17:10-17:40

超算系统中基于拓扑感知的集合I/O操作优化研究

刘伟峰
北京应用物理与计算数学研究所博士后,助理研究员

董勇
国防科技大学计算机学院,副研究员

8

17:40-18:10

超算系统的性能监控与I/O优化

喻杰
中国空气动力研究与发展中心计算中心,助理研究员

 

交流会现场