图为曙光总裁历军
日前,曙光对外披露说,将在3年内研发百万亿次高性能计算机。这也意味着,国内企业将与美国、日本等发达国家面对面地就百万亿次机高性能计算机的开发研究工作展开竞争。7月14日17时,曙光信息产业(北京)有限公司总裁历军将作客新浪总裁在线,就中国高性能计算机的研发,和近10年来的发展,与广大网友进行在线交流。
以下为聊天实录:- 实际上超级计算机这个东西,不一定一提及就是十万亿次、百万亿次,实际上这个超级计算机是一类计算机的一个种类,所以超级计算机还有一万亿次,五千亿次的这样的系统。可能它计算的这些题目,计算不是很复杂,但是这些题目更贴近我们的生活,在比较小的范围之内来起作用。
- 超级计算机的重要的作用,对于国家战略的重要的作用,迫使着各个国家在这个领域里面,不断的持续的投入,来积极的参与竞争,这也是一个非常重要的原因,所以它的变化非常快。
- 这样的一台大的超级计算机应该是非常复杂的系统工程,这样的系统工程要集中相当大的人力、物力,当然包括要付出很长的时间。三年,我想是一个比较可靠的数字。
- 中国人,或者是很多中国的计算机工作者,或者是IT的从业者,他们心里面长久的一个痛,包括我本人在内。我们学计算机,做计算机,十几年,几十年,一直根本的最核心的技术我们没有掌握。
- 如果龙芯能够达到我们对性能的要求,我们将会坚定不移地采用龙芯。
- 曙光成立这十年来,就做了一件事,就是在做服务器,在做高性能计算机,实际上也就是在每一天,每一小时,每一秒在追赶,在不断的试图缩小这个差距。
- 在三年的过程当中,我们希望海外市场的小说收入能占到公司总体年度销售收入的一个比较大的份额,比方说应该是在不太长的一段时间内,我们海外市场的收入应该占到公司至少10%的收入,这是我们给自己定的一个比较现实的一个目标。
主持人: 各位网友大家好!欢迎大家进入新浪聊天室。先来介绍一下今天的嘉宾,曙光信息产业北京有限公司总裁历军,历军先生您好。
历军:大家好,我是曙光公司的历军,在曙光公司有十年的工作经历,今天非常高兴有这么一个机会和大家聊一聊。
主持人: 前不久有一条信息大家很关注,曙光称在三年内造百万亿次的超级计算机,很多人都有疑问,为什么要造这样一台超级计算机,有没有实力来做?我们先请问历军先生第一个问题,百万亿次的超级计算机是什么概念,怎么样理解它呢?
历军:百万亿次是指一台计算机,每一秒钟可以执行100万亿条的指令,这是百万亿次的概念。现在从计算机市场的发展来看,百万亿次的超级量的计算机在全球属于最先进的水平。主要会在一些关键的应用场所,比方说航空器的设计、气象预报、石油勘探等等一些大型的科学工程计算的领域。
曙光造100万亿的系统,首先第一点,有这样的能力,这一点我是非常有信心的,我们在这个方面有相当长期的技术的积累,实践证明我们在前一阶段开发的曙光4千A,离百万亿次只有一个数量级的提高。由于我们技术的积累和市场诸多方面,我们认为中国完全有这样的能力,或者说曙光完全有这样的能力来制造这样的机器。
图为曙光总裁历军
主持人: 一台家用的新计算机出来了以后,我们会感觉到它的速度更快、可以在上面做更多的事情,可以享受到更好的生活的享受,对于这么一种百万亿次的超级计算机,它研制出来以后,对老百姓的生活能感觉到什么样的改变?
历军:一定是有的,首先第一个我们每一天都关注气象预报,气象预报实时性、准确性,随着超级计算机的计算能力的加强,可能在未来如果有我们百万亿次的计算机,可能未来我们的天气预报会预报到海淀区知春路某一小片区域,下一个十分钟它的气候,温度,或者说有没有雨这些情况,这个对每一个市民最直接的影响,这是第一。
第二,现在大家很多人都在开车,石油的价格是非常重要的,每一天大家要考虑的问题。超级计算机在石油勘探领域的作用随着超级计算机计算能力的提高,那么对油藏精密的模拟也是非常重要的手段,我们在过去很多的油田开发到了一定程度以后,渐渐产量就降低了,这个油田可能进入了生命周期中老年的这么一个时期。其实在这个过程当中,我们认为已经步入老龄的油田,通过超级计算机的性能,我们可以在已经被采光的大片的油藏构造的中间,找到一些我们还没有开发的,比较小的油藏,但是这些油藏仍然具有开采的价值,而以往我们找不到它,或者说我们不能够准确定位这些小面积的油藏的精确的位置,所以这些油藏通常就被浪费掉了,我们可以通过这样的超级计算机来找到这些油。
诸如此类,还有很多,比方说在非典过程当中,SARS病毒的一些结构,我们可以通过这种高端的超级计算机来计算,获得他的一些必要的生物学的特性,以便于我们可以更好找到更有效的药物来抑制他。
主持人: 我们有一个疑问,既然它有这么大的作用,像中国市场大概需要几台这样的超级计算机呢?
历军:实际上超级计算机这个东西,不一定一提及就是十万亿次、百万亿次,实际上这个超级计算机是一类计算机的一个种类,所以超级计算机还有一万亿次,五千亿次的这样的系统。可能它计算的这些题目,计算不是很复杂,但是这些题目更贴近我们的生活,在比较小的范围之内来起作用。
所以就我的了解,中国的高性能计算机的市场,随着中国的改革开放的不断深入,这个市场在不断的成长。曙光公司的数字在2004年,我们就销售了200多套类似的系统,当然大大小小,最大的就数我们安装在上海超级计算中心的十万亿次的系统,小到5千亿次,3千亿次的系统,仅曙光一家一年就销售200多套。随着中国高性能计算的需求这个增长非常快。
主持人: 我们在网上注意到商业周刊的发布的全球超级计算机25强的排名,我们注意到最快的一个是367万亿次每秒,这是一个公开的数据,现在还有比它更快在运行,但是不被外界所知道的吗?
历军:我们看到的这个排行基本上能够代表这个全球的超级计算机的主要的装机量,因为这些装备已经不像在以前冷战那个时候,大家互相都保密。其实现在基本上还是比较公开的,至于我们从排行榜上看到有这么一些机器达到了那个性能,大家它用来做什么,我们通常不会知道,在那个表上应该是最快的。
主持人: 我们也注意到在上个月底的时候,曙光说要做百万亿次的计算机,其他国家也有在做,咱们是不是和他们竞争的意思在里头呢?
历军:应该说有这样的意味吧,大家可以从这个排行榜变化的趋势上来看到,应该是你追我赶的这么一个状况,今天或者说昨天是日本的机器领先,今天就变化了美国的机器领先,可能在下一次不一定有哪个国家来领先。但是目前看,在全球超级计算机的排行当中,可能更有实力还是日本、美国和中国。那么在这个排行榜当中,应该是在不断快速变化,但是我们曙光也是在这个排行榜中积极的参与竞争,那么为什么有这样的竞争呢?我想超级计算机的重要的作用,对于国家战略的重要的作用,迫使着各个国家在这个领域里面,不断的持续的投入,来积极的参与竞争,这也是一个非常重要的原因,所以它的变化非常快。
图为曙光总裁历军
主持人: 是不是主要是这三个国家来进行超级计算机的竞争?
历军:是这样。
主持人: 我们也注意到你和李国杰院士谈到三年内造成这么一个机器来,对于这个研发来说,它的时间很紧迫吗?
历军:应该还是比较紧迫的,这样的一台大的超级计算机应该是非常复杂的系统工程,这样的系统工程要集中相当大的人力、物力,当然包括要付出很长的时间。三年,我想是一个比较可靠的数字。当然,我希望它是两年,或者是更快,但是一切还要按照工程的实践的规律来办,但是三年我认为是比较靠得住的一个预期。
主持人: 在一开始的时候,您也谈到过您很有信心来做,但是对于外界来讲,会很关心曙光有怎样的实力来完成这个工作,举个例子它有多少研发人员,研发资金是不是能够足够呢?
历军:我想曙光的实力是已经经过了充分证明,曾经我们在曙光宣布自己开发成功每秒钟10万亿次的曙光4千A时,那个时候我们站国际上先进水平。随着时间的推移,有些感兴趣的网友会看到,我们的排位在向后,这个很正常,由于大家都在进行这方面的竞争、竞赛。所以先做出来的,先上榜,后做出来的后上榜,通常后做出来的性能会高于先做出来的这些。我想我们会在下一个阶段,我们再上榜的时候,可能会有一个比较大的提升。
从能力方面看,曙光在这么样的一个大的系统工程的设计、实施的过程当中,应该说多年来积累了相当丰富的经验,而且拥有大批高水平的成熟的人才。我想直接参与到我们下一代高性能计算机曙光5千当中的研发人员和工程设计人员应该在300到500名这个水平。这里面包括软件、硬件,包括一些工程实施、可靠性分析诸如此类的团队。从我当年从事高性能计算机开发的一个工程师的角度看,实现这样的目标非常有把握。
主持人: 能不能说一说,这个研发工作,它的研发步骤呢?是什么样的时间表?
历军:如果谈时间表,可能在这个项目正式通过立项和评审以后,这个时间表才能确定,大家大致无外乎这么几个过程:
第一个在先期我们所进行的技术上、市场上进行的可行性分析,这个非常重要,如果可行性分析效率不高,或者是准确率不高,这个会直接影响这个的成败。
在通过了这个可行性分析的调研之后,我们可能会集中一些力量进行一些总体的设计,因为总体设计的时间也是会相对长一些,因为大量的系统,系统的一些关键技术在这个时候,我们会把它确定下来,那个时候可能会出现一些我们项目的一些非常具体的时间表。
在总体设计完成之后,进行下一阶段的工程设计,包括一些重点的软件、重点的零部件的开发,这是第三个阶段。
第四个阶段是总的工程的实施,也就是说在这个阶段,这一代机器在这个阶段尾声的时候,这一台机器就会让大家看到。再最后的阶段,就会有一些测试,一些实际的可靠性分析,诸如此类的,当然包括我们会做一些必要的性能,一些其他的指标的评估的工作。大致就这么几个阶段,这几个阶段可能比较重要的,比方说,前期它的总体设计,通常要在6个月左右的时间才能够完全的完成。
主持人: 您刚才也谈到测试,它是完成之后的测试是放到某一个具体需要的单位,或者是企业当中进行实战的测试,还是说在实验室进行模拟的测试呢?
历军:通常是这样的,因为大家知道,如果我们开发出来一百万亿次的产品,它的体积是相当的庞大,或者说是一个庞然大物。我们在曙光4千大致就有40个机柜左右的规模,把这样的系统拿到什么地方去测试,基本上不现实。通常采取的方法就是请用户带着他的软件过来在这个机器上测试。
其实有很多时候,互联网的性能提高了,很多时候在外地就可以直接测试,我们在北京给他开一个帐号,他在外地就直接提交作业上去运行,这个时候我们会完全的模拟在机器的实际的运行状况,它的一些将来要用的应用软件,操作系统这些方面都会进行一个完全的全面的测试。这个时间通常也要三个月到六个月的时间,才能够把所有的项目都完成。
主持人: 您能不能给大家一个概念,像这么一台百万亿次的超级计算机,会占多么庞大的面积呢?
历军:我想我现在预期具体的细节现在还不好说,随着我们技术的发展,超级计算机的体积实际上多年来是不断在缩小,但是我想我们的曙光5千最小也应该需要半个篮球场那么大的空间。也应该在40到50个这样的机柜的这样的规模。
主持人: 三年的时间表当中,我们也注意到其中有设计和审批,或者是中间一些测试的过程,像这么一台超级计算机最终推向市场,中间是不是也留了可供提前的时间量呢?
历军:通常我们做这样设计的过程里,必须要考虑到,因为科研是有风险的,我们必须要预留一些,万一在哪一个环节出现问题,那么我们必须留出足够的时间来应付这样的突发的事件,所以我想,我们制定三年的目标,其中是留有余量的。我刚才说是一个可靠的数字。
主持人: 国际上每年都有组织或者是媒体来发布全球超级计算机的排名,每年的速度都在快速的提高,给我们印象很深的一个是在之前我们还有媒体大肆报道中国的超级计算机进入前三名,现在前25名中只有一个,会不会出现我们的超级计算机研发出来之后就落后了呢?
历军:这个问题这么看,我们在曙光4千A推出的时候有一个旗帜鲜明的观点,这个超级计算机的核心在应用,而不在于它是10万亿次,还是100万亿次,关键看你用来做什么,是不是能够很好的发挥它实际的作用。所以我想照我们现在的预期,在未来的两年时间内,我们开发出来的100到200万亿次的超级计算机应该在国际的排行榜中,还是会名列前茅的,这是第一个。
另外一个,我觉得随着中国的应用水平的提高,我们更愿意看到我们开发出来的这样的大型的系统,能有更好的应用的支持。所以至于它是不是在那个时候会落伍,所谓落伍可能就是两个方面的落伍,一个方面是它比方说我们是100万亿次,从它的总的峰值性能的角度,也许两年以后排在第10名或者是第8名,但是我想这种情况不能代表实际的是不是落伍了,从另外一个角度讲,就是我们这台机器,它的机构是不是先进,那么它的效率是不是足够高,这是我们看到它是不是落伍的一个标志,而不在于它多少万亿次这样的标签似的东西。我们一直反复在强调,中国高性能计算机的发展,多少万亿次的峰值的性能,我们应该把它看的轻一些,重点看它这一台机器能给中国的经济发展,科技发展甚至一些其他方面的需要能够满足这样的需要,或者是实现它的作用,这个方面可能也是我最看重的。
主持人: 前不久注意到一个很有趣的现象,当媒体在报道曙光三年内要造出百万亿次计算机的新闻的时候,许多媒体都将它与是否采用龙芯联系起来了,为什么会有这样的争论和联想呢?
历军:我想这个可能是中国人,或者是很多中国的计算机工作者,或者是IT的从业者,他们心里面长久的一个痛,包括我本人在内。我们学计算机,做计算机,十几年,几十年,一直根本的最核心的技术我们没有掌握,就是CPU,提到这个问题,大家非常感兴趣,我觉得这也是正常的,包括从我也非常重视这个问题。
超级计算机实际上它的重要考虑的它的体系结构,它的效率,其实至于采用什么样的CPU,可能和这个CPU会去配合我们所选择的体系结构,能够发挥它更大的效率,所以大家一直都想,我们是不是中国人能不能用自己的CPU,那么几年前,我都觉得非常振奋,我们有了自己的服务器用的CPU,这个龙芯,龙芯的发展区区几年而已,在这几年当中,它不但的性能发展,超越,已经接近我们需要的性能的水平了。所以从我的角度看,第一个我非常地愿意在我们的系统的总体设计的时候,我们的龙芯能够达到我们对性能的要求。如果是这样的话,我们将会坚定不移地采用龙芯,这是第一点。
第二点,关于龙芯,就是我们的超级计算机,曙光5千的超级计算机,它一定是一个工业化的标准化的这样的产品,应该是在市场上能够支持最大的兼容性,最高的可靠性。当然还有更高的性能,如果龙芯能够满足这样的要求,我们一定会选用龙芯。
第三点,我相信在未来的一年当中,龙芯是有能力逐渐的通过自身的技术进步,满足我们这个要求的。关于龙芯我就这三个方面的看法。
主持人: 您说了三点,如果它达到这个要求您一定会使用,现在的龙芯研发的进展,据您所了解的情况现在是什么样的情况呢?
历军:我想在今年的年底,龙芯从性能上会有比较大的进展,年底可能从曙光的角度看,就会采用龙芯在一些小规模的系统上来进行一些测试。但是我个人的估计,在今年年底,它的性能应该会达到奔腾4,2个G左右的性能,我觉得这样的性能对于我们拿它来制造我们的超级计算机应该是已经是非常好的,能够满足要求了,当然还有其他方面的特殊的情况,那些情况我们可能还需要做一些其他方面的调整。