第一届 高性能计算环境运维与优化论坛

论坛简介:

     近年来,国内外高性能计算机发展迅速,以“天河二号”为代表的国产高性能计算机在性能上已经居于国际领先水平。但随着高性能计算机规模的不断增大,系统运维和优化的压力越来越大,面临许多挑战性问题,这需要高性能计算机的研制单位和一线运维团队共同努力来解决。基于这一背景,高性能计算中心的罗红兵研究员和武林平副研究员着手酝酿在2016年全国高性能计算学术年会上举办《高性能计算环境运维与优化论坛》,旨在从研制和使用两个角度交流对高性能计算环境的系统运维和优化的认识,向学术界提出基础性的问题,向产业界提出具体需求,让运维团队和应用单位交流经验。经过会前的反复协商和沟通,最终决定从国内有代表性的高性能计算机研制和使用单位遴选5家单位进行邀请报告,确定了报告人和具体议程,由罗红兵研究员担任论坛主席。

2016年10月29日下午,《高性能计算环境运维与优化论坛》如期在西安举行,来自北京应用物理与计算数学研究所、国防科技大学、西安电子科技大学、国家超算广州中心、国家超算济南中心、中科院计算机网络信息中心、曙光公司、并行科技公司等单位的近30位业界同仁参加了论坛,其中北京应用物理与计算数学研究所参会人员包括:袁国兴研究员、罗红兵研究员、武林平副研究员、张晓霞高级工程师、刑莉高级工程师、田鸿运助理研究员。在罗红兵研究员简短的开场白之后,国家超算广州中心的杜云飞总工程师做了题为“天河二号的运维、运营管理之道”的主题报告,分享了他们团队在提高系统稳定性和运维管理便利性方面开展的工作,以及如何管理好“天河二号”这台曾连续6期位列世界上第一的高性能计算机;北京应用物理与计算数学研究所的武林平做了题为“高性能计算环境的运维—范畴、目标、技术、制度”的主题报告,分享了九所对于高性能计算环境运维和优化的理解,尤其是处理大规模并行计算机亚健康状态方面所开展的卓有成效的工作;国防科技大学计算机学院的董勇副研究员做了题为“高性能并行计算环境开发与维护”的主题报告,主要以资源管理系统和并行存储系统为关注点,介绍相关的经验和教训,并展望了下一代并行计算环境设计的相关思考;曙光信息产业股份公司高性能计算产品事业部的张永生副总经理做了题为“从OaaS到HPC运维大数据”的主题报告,介绍了曙光公司如何通过在线运维平台产品的研发,来提高高性能计算机的管理运维效率,提高最终用户的使用体验;并行科技股份公司的赵鸿冰博士做了题为“共享经济模式下的高性能计算环境运维与优化”的主题报告,主要从借鉴“互联网+”思维的角度,介绍如何利用Paramon等工具,改善运维生产力,提升生产效率。   

主题报告之后,论坛进入panel环节,参会人员纷纷就各自关心的问题,结合论坛主题报告环节尚未讨论充分的问题,展开了进一步的讨论,讨论的议题既涉及如何降低运营成本、运维系统的普适性等较为宏观的问题,也涉及监控软件的报警处理、性能优化软件是否程序编译时打开调试开关等细节。论坛一直持续到下午6点,大家仍意犹未尽。不少与会者建议建立交流群以方便领域内的交流,大家一致同意:力争在明年的全国高性能计算学术年会继续举办高性能计算环境运维与优化论坛。