第二届 高性能计算环境运维与优化论坛

2017年10月21日上午09:00-12:00  安徽省合肥市瑶海区新蚌埠路与北二环交叉口西南角 金湾大酒店 三层黄山厅

论坛简介:

      随着规模的不断增大,高性能计算环境的系统运维和优化面临许多挑战性问题,这需要高性能计算机系统的研制单位和一线运维团队共同努力来解决。论坛邀请来自国内多家超算中心和高性能计算机研制方的一线专业人员,从研制和使用两个角度交流对高性能计算环境的系统运维和优化的认识,向学术界提出基础性的问题,向产业界提出具体需求,让应用单位相互交流经验,以期促进我国高性能计算机运维水平的提高,更大地发挥高性能计算机的使用效能。

论坛源起:

随着高性能计算机系统规模的不断增大,系统环境变得愈发复杂;另一方面,随着大规模并行应用的发展,应用对于系统运行环境也提出了更高的要求。系统和应用两方面的发展使得高性能计算环境的系统运维与优化难度直线提升,其中不乏挑战性问题常常需要系统研制方、系统运维人员以及应用研发人员协同攻关。在此背景下,北京应用物理与计算数学研究所罗红兵研究员和武林平副研究员于2016年全国高性能计算学术年会上组织发起了首届“高性能计算环境运维与优化论坛”并成为年会的官方论坛之一。

论道合肥:

2017年10月21日,第二届“高性能计算环境运维与优化论坛”在安徽·合肥成功举办。本届论坛由高性能计算中心武林平副主任担任论坛主席,邀请了来自国内多家超算中心和高性能计算机研制方的一线专业人员以及产业界的高性能计算管理人员。来自各单位的运维专家们从系统运维、应用支撑、环境优化、团队建设、软件研制等多个方面交流了对高性能计算环境的系统运维和优化的认识,讨论了大规模高性能计算机系统运维过程中亟待突破的共性技术问题。

本届论坛得到了高性能计算同行的大力支持。无锡超算中心刘钊主管做了题为《神威·太湖之光的系统与运营》的报告,系统介绍了无锡超算中心对当前HPC Top500排名第一的神威·太湖之光系统的运营经验,并分享了他们的运维和用户支撑方法以及取得的丰硕成果。来自国家超级计算天津中心的徐斌副主管做了题为《天河一号系统运维管理分享》的报告,分享了天津超算运维团队在人员管理、技术积累、流程创新、制度建设方面的系统运维经验,并从用户登录、计算节点、存储系统、网络运维、管理软件、系统平台等多个方面具体介绍了团队积累的系统运维实战技术,引起了与会听众的强烈反响。我所高性能计算中心田鸿运助理研究员做了题为《针对HPC互联通信系统运维保障能力提升的探索与实践》的技术报告,针对大规模高性能计算机系统的互联通信系统运维这块硬骨头,介绍了团队在相关方面的探索思路和研究进展。来自国防科大、天津超算、成都空气动力研究中心、长安汽车高性能计算事业部的同行研究人员对我们在研的互联通信系统运行时监控工具表达了浓厚兴趣,希望我们能尽快实施部署并向外推广。此外,国防科大董勇副研究员、曙光公司高性能研发部张永生副总经理以及长安汽车高性能计算事业部庄德升副总也做了相关主题报告。

参会人员:


武林平 北京应用物理与计算数学研究所 特聘研究员

个人简介:武林平(1977-),男,博士,特聘研究员,北京应用物理与计算数学研究所高性能计算中心副主任。主要从事高性能计算环境的性能优化和高效系统管理软件的研究工作,主要研究兴趣包括高性能计算机性能模型及系统评测、系统运行稳定性及容错机制、多核多处理器计算结点操作系统行为建模与优化、并行程序性能分析方法与工具等方面。发表高性能计算相关的学术论文10多篇,负责国家自然科学基金青年基金1项,获军队科技进步一等奖、二等奖各1项。wlp@iapcm.ac.cn

讲者(一)

 

刘钊 国家超级计算无锡中心 技术研发部课题主管

报告人信息: 刘钊(1986- ),现任国家超级计算无锡中心技术研发部应用支持课题主管,负责中心重点应用支持、高性能计算应用研发等工作,并参与了多项国家863、国家973、重点研发专项等项目。研究方向为高性能计算与应用、超大规模并行计算算法设计与优化、并行/分布式系统。基于国家超级计算无锡中心的“神威·太湖之光”国产高性能计算机开展了多项千万核并行规模应用研发和优化,其中“钛合金微结构演化相场模拟”入围2016年度“戈登贝尔奖”,是中国首批入围该奖的三个应用之一。

演讲人 “神威·太湖之光”——系统与运营  

报告摘要:国家超级计算无锡中心(以下简称“无锡超算中心”)位于“太湖明珠”——江苏省无锡市蠡湖风景区,由国家科技部、江苏省、无锡市共同组建,以国家“十二五”863计划重大项目“十亿亿次国产高效能计算机系统”研制成果“神威?太湖之光”为基础构建的国家级超级计算中心。无锡超算中心主机系统全面采用国产“申威26010”众核处理器和软件生态链,具有运算高效和数据安全的行业优势。“神威?太湖之光”计算系统是国家“863计划”重大专项研究成果,是我国第一台全部采用国产处理器构建的超级计算机,并在TOP500榜单上连续三次排名第一。本次报告将对“神威?太湖之光”的运营情况进行汇报和讨论。

讲者(二)

 

徐斌国家超级计算天津中心 系统管理部副主管

报告人信息:徐斌,国家超级计算天津中心系统管理部副主管,主要负责中心各套业务系统及其配套基础设施的运维平台研发、运维管理和故障响应。拥有10年以上系统管理与运维从业经验。精通高性能计算集群系统架构,对系统硬件、Linux内核、用户管理、作业调度、分布式存储、安全策略等有丰富运维实践经验。

报告题目: 天河一号系统的运维管理经验  

讲者(三)

 

田鸿运  北京应用物理与计算数学研究所 助理研究员

 

报告人信息: 田鸿运,毕业于北京航空航天大学计算机专业,硕士,北京应用物理与计算数学研究所助理研究员,五年一线系统运维工作经历。目前从事高性能计算机系统管理及优化工作,主要研究方向为HPC系统可靠性建模与评测、HPC系统性能优化,当前重点研究HPC互联通信系统的可靠性建模与评测,发表相关学术论文及专利十余篇。

报告题目: 针对HPC互联通信系统运维保障能力提升的探索与实践  

报告摘要: 稳定可靠的高性能计算环境对于大规模数值模拟应用的高效稳定运行至关重要。一方面,随着系统规模的不断增大,系统故障概率增加,故障影响增大,故障定位及修复时间更长;另一方面,随着系统服役年限的增长,部件老化,可靠性下降带来的系统运维问题愈发突出。这些都将严重影响系统用户的上机体验。其中,互联通信系统作为高性能计算机系统的核心组成部分,其所带来的系统可靠性问题最是突出。互联通信系统的故障往往波及范围广、定位难度大、修复时间长,互联通信系统的故障定位和修复是现阶段高性能计算机系统运维过程中的硬骨头。本报告将介绍我们在HPC互联通信系统运维保障能力建设方面的一些探索与实践。

讲者(四)

 

董勇 国防科技大学计算机学院软件研究所 副研究员

 

报告人信息:董勇,男,1980年生,博士,国防科技大学计算机学院软件研究所副研究员,计算机学会会员,高性能专委会委员。主要研究领域为高性能计算、并行计算环境、并行存储等。参与多代银河/天河系列高性能计算机系统研制。 yongdong@nudt.edu.cn

报告题目: 高性能计算系统的运维与资源管理  

报告摘要:随着高性能计算系统向E级迈进,系统规模不断扩大,系统计算资源、运行环境的管理面临更大挑战,包括计算资源分配复杂度增加、运行环境可靠性问题凸显、应用需求类型多样化等。结合作者在系统研制、系统运维服务等方面的经验和教训,探讨如何更好利用系统资源,提供功能更为丰富、使用更为便利的用户体验。

讲者(五)

张永生  曙光信息产业股份有限公司高性能计算产品事业部 研发部副总经理

 

报告人信息:张永生,博士,在加入曙光之前曾任职于多家知名互联网企业,现负责曙光高性能计算机监控运维相关产品的研发与管理工作,对传统运维和互联网运维都有深入理解,探索传统运维向现代运维转型的新方案。 zhangysh@sugon.com

报告题目: EasyOP正在改变“世界”  

报告摘要: 在线运维,不止于运维。这是EasyOP的产品定位,我们致力于做最好的运维,这是我们坚持不变的核心理念,于此同时为顺应HPC市场发展,我们又致力于将运维、应用深度支持、计算资源共享、知识共享集成为“HPC服务”,提供给HPC服务的任何需求者,也就是做到了“HPCaaS”。从现在起,HPC设备不再是麻烦的制造者。从现在起,HPC将变得简单。从现在起,我们开始有时间喝杯咖啡…。报告内容包括智能运维、HPC的共享经济、EasyOP与AI的结合等方面内容。

 

 

日程安排:

 

序号

时间

演讲人

报告题目

1

09:00-9:30

刘钊 

“神威·太湖之光”——系统与运营

2

14:35:-15:10

徐斌

天河一号系统的运维管理经验

3

15:10-15:45

田鸿运

针对HPC互联通信系统运维保障能力提升的探索与实践

4

10:30-11:00

茶歇

茶歇

5

11:00-11:30

董勇

高性能计算系统的运维与资源管理

6

11:30-12:00

张永生

EasyOP正在改变“世界”

 

交流会现场


论坛座无虚席,部分听众全程站着听完报告


论坛嘉宾与部分听众会后合影

 

与会嘉宾做主题报告,左上~右下依次为 (1)无锡超算刘钊主管、(2)天津超算徐斌副主管、(3)北京应用物理与计算数学研究所田鸿运助理研究员、

4)长安汽车高性能事业部总经理庄德升、(5)国防科技大学董勇副研究员、(6)曙光公司高性能计算产品事业部张永升副总经理

本届论坛不仅得到了业界同行的大力支持,也引起了参会人员的广泛关注。会场座无虚席,很多晚到的听众甚至站着听完了全部报告。在每个报告结束后的提问环节,与会听众纷纷就自己关心的系统运维问题向讲者提问,原定12点结束的论坛直到将近1点才结束。会后,我们还成立了专门的微信在线交流群作为本论坛的官方微信群,促进运维同行之间的交流与互通,为明年的论坛营建良好的讨论环境。