独家对话阿里云张建锋:云计算接近进入下一个时代|钛媒体深度
“互联网和网络科学的快速发展使人产生了一个具有误导性的印象,即社会网络悬浮在空间内,似乎不再被重力和物理世界所累。” 和阿里云智能总裁张建锋(花名:行癫)的沟通,很快让我脑子里想起了杰弗里·韦斯特在他的奇书《规模:复杂世界的简单法则》中的这句话。
因为他的谈话,焦点都集中于如何用最小的计算和能源消耗,去更高效管理迅速膨胀的数据中心规模——截止到目前为止,阿里云在四大洲的27个国家和地区、84个可用区、2800个网络节点,运营着上百万台服务器,服务着全球400多万客户。他非常清楚,这个发展迅速的巨量规模的服务器集群,会带来超乎想象的管理难度和成本。
同时,巨量的规模也带给阿里云利好的消息。5月26日,阿里发布了2022财年的业绩报表,云业务同比增长23%,全年收入在抵销跨分部交易前和抵销后分别为1001.8亿元和745.68亿元,并且实现11.46亿的盈利数据。这是成立13年来首次实现年度盈利,实现了历史性突破。
“规模。”张建锋对于盈利的解释非常简短,因为只有足够大的规模才能摊销掉庞大的研发成本。所以对阿里云来说,不断投入研发,用先进的技术手段对抗、消解云计算规模扩张带来的挑战和成本,就是赢得竞争的不二法门。
“过去我们从分布式到资源池化,都是以CPU为中心的云时代,事实上也完成了非常多的一些创新,特别是像资源池化等等。但是随着数据的增长、随着规模的变大、随着延迟的要求越来越高,需要呼唤一个全新的一个技术体系去满足下一阶段的要求。”张建锋说,为此他给2022年的云峰会上提了一个新的主题——Back to Basic。如果最近出差的话,会看到机场上阿里云的广告,也回归了最初的版本——为了无法计算的价值。
在云峰会上,阿里云发布了下一代的云计算的基础设施核心CIPU。CIPU的说法直接映射于PC时代的CPU,意为云时代的IDC内部的处理核心。在这个全新的架构下,计算、存储和网络接入CIPU,资源即可被高效的云化管理。通过CIPU的硬件加速,实现超高的性能。他举了一个例子,使用阿里云的盘古存储协同CIPU、盘古高密存储服务器和洛神Solar-RDMA网络,可以让延迟降低到30微秒,这意味着访问存储在远端的数据,延迟比访问本地的硬盘还低。
3年前张建锋刚刚接手阿里云的时候,我们第一次见面,他提出阿里云要“被集成”,这个说法的核心就是推动阿里云从提供资源向提供能力转换。但是那时对于如何被集成、如何定义可以被封装的能力,还有很多模糊的地方。3年之后,他提出Back to Basic,再次把技术放在了首要战略位置,也再次把向用户提供能力作为努力的方向。但这一次,用户和阿里云对于能力的定义,都清晰了很多。某种意义上讲,这也是阿里云以及整个中国云计算市场的螺旋式上升。
“云计算越来越接近进入下一个时代了——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。大家在重新定义云的结构的窗口期,如果我们定义好了,中国就可以在下一代的技术时代有自己的一席之地。”张建锋认为,新一代的技术架构,会催生新一代的云原生应用,也是中国软件和企业数字化的巨大机会。所以,阿里云一方面会向下深耕技术,另一方面,也会加大气力推动生态的建设。
在云峰会之前,张建锋和钛媒体联合创始人刘湘明就云计算的发展以及生态建立的话题,做了一次深入交流。
下文为对话实录,有删节。云计算的下一个时代
张建锋:其实我们要做的东西,本来就是更底层一点,但为了客户能用起来,我们已经自己用业务翻译了一层,搞各种数字化的项目,结果这个越搞越厚了,离云越来越远。
钛媒体:其实大家都面临同样的问题,现在提这个真的挺好,正好市场大环境大家都在减速,原来都捆在战车上,谁也不能慢下来。
现在真是可以回头看看,很多原来来不及思考的本质。对于过去的云计算,你觉得有哪些判断是有点失真的,偏离了它的本质?
张建锋:云本身在发展,特别是这两年发展的非常快。最基础的层面,客户用了云,肯定要比原来的传统IT更灵活,更安全更高性价比,这是个基本的要素。
如今的云计算我们认为面临着几大挑战:第一是计算和网络传输的时延大。以前可能不明显,但是随着我们的体系结构越来越分布式了之后,那意味着我们的一个大型的应用会分散在多个子系统去部署,这些系统之间需要高速地去互联、需要非常低的延时;第二,因为随着大数据应用的不断的增长,使得IDC内部的东西向流量越来越大,所以我们需要来满足这个流量增大之后的网络的一些新的要求;第三,我们现在的系统规模越来越大、越来越复杂,所以我们需要解决超大规模基础设施的复杂管理问题,也需要解决在云内部的超大应用、复杂应用的管理问题。
从数据中心角度来讲,不是简单从软件上做一些创新,而慢慢变成整个体系结构性的创新了。在这个逻辑下,就是也为了云的数据中心,需要有一个中心控制节点。
现在这个领域,国际上的玩家很多,比如英伟达就倾注了无限的热情,三年的路线图都规划好了。对阿里云来讲,我们现在有自己的CIPU。
大家应该都是同样的思路来看待这个问题,总结一下,就是对于整个云来讲,肯定是软件来定义整个基础设施。软件定义具备了灵活性,必然是牺牲了性能。但是如果有CIPU后,实际上又在灵活的基础上大幅度提升了性能,也就是软件定义,硬件加速。
结果是什么?到目前为止,我们访问远端的集中式存储,速度比访问本机的硬盘更快,就是因为体系结构变了——访问更快,又不消耗主机的CPU资源。
我们有了CIPU,中间还有个网络的协议。今天阿里云基本上网络协议都是eRDMA,非常低的延迟、非常高的带宽。最近评选的全球十大计算机网络研究机构,中国只有我们入选。我们定义了云计算时代的网络协议,而且工业标准化了。
所以云计算越来越接近进入下一个时代了——全新的架构定义,全新的软件界面,硬件加速。
以后集中做的基地型的IDC一定是未来,而且是30万台规模起步。我们在张北有很大规模的机房,以后成都也会重点投入。
另外一个问题是IDC互联,中国目前和国外的模式不一样。但东数西算可能还会有考虑——这么多数据搬过去,如果按照传统的方式,成本是很高的。如果这个突破的话,云计算可能还有下一轮爆发。
钛媒体:今天我们谈的起点都不一样,真是在从云的规模去考虑问题的,原来我们的思考还受到很多PC 时代的影响。
张建锋:我们现在就是面临一个非常关键的节点,我们错过了PC时代,但云这个时代大家起步是一样的。大家在重新定义云的结构的窗口期,如果我们定义好了,中国就可以在下一代的技术时代有自己的一席之地。
比如为什么我们要有无影?家里有一台电脑,要的是一个屏幕一个键盘,今天的带宽、算力,把主机挪到云上去是一样的,没有影响,不需要去买一个物理的主机。大家现在都在琢磨要把办公电脑的主机国产化,但如果以后没有主机了,就不存在把那个东西国产化的必要了——而且这个国产化的成本很高。
钛媒体:因为那条发展的道路,你要重走一遍。
张建锋:是的。所以国产化的问题,要面向下一代技术发展趋势去考虑解决方案。
无影现在在很多地方用的很好,我们有些客户做渲染,要用非常高的算力,云计算的模式节省很多成本,而且数据都在云上,上面全加密的,又有熔断,又有保护,也很安全。
这样面向下一代的架构,大家都在同一条起跑线上,中国是有优势的。
钛媒体:刚才咱们在谈到从CPU、IPU、DPU、CIPU,真正的变化其实是把原来整个计算架构的中心化打破了,慢慢的所有的功能都有不同的核心去完成。传统的这套计算架构,它的真正的核心是什么?是指令,所以CPU的一个指令去控制所有东西。现在计算架构的核心就变成数据流,所以才会有这么大的变化。
张建锋:对,以前处理任务,现在处理数据,要有新的结构。
钛媒体:原来我们一直在谈整个云生态的设计,但是在这个架构里面谁去做什么事儿一直都是模模糊糊的,比如阿里云有段时间差不多做成SAP、埃森哲的样子,冲在数字化的最前线。现在谈Back to Basic,各自的角色其实就清晰了很多,阿里云还是要做成云计算架构里面Intel这样的公司,是往回退一些。
张建锋:做英特尔也要做Windows,因为云计算本身要操作系统,我们就是CIPU+飞天操作系统。
新时代的云计算生态机会
钛媒体:之前听到Back to Basic,当时就觉得有些共鸣。其实过去这几年云计算的发展,大家都觉得有些地方不对劲,但是也来不及去想这个。
张建锋:其实大家都在做数字化转型的部分。这个工作当然用了云之后,可以更好的,天然打破了部门墙或者系统墙,因为数据都在同一个底座,所以你要去分析数据、利用数据变得更容易了。
例如我们去做冬奥会,冬奥会上有几十上百个系统,有计分的,有赛场管理,用了云其实还是非常大的区别的。原来要开一次奥运会的时候,奥组委有个技术部,要先找个地方把IDC建起来,从选址到合作伙伴,采购空调之类的,从头干起,还要采购服务器。
建好之后,上面跑的很多系统都不互通,要开放接口,要做开发,运维过程中要测试运维,中间出了问题,也不知道网络有问题,或者服务器有问题,要找无数的供应商来解决。最后还有一件很复杂的事情,原来奥运会结束了之后,还要花很多时间处理资产,现在他退出就可以了。
所以云的出现极大改变了以前整个信息系统的构建方法。很多企业一样面临一样的问题。
钛媒体:所以过去很多企业基本上把数字化跟云计算画等于号了。
张建锋:当然很大的互联网公司,还是云计算的主力消费者。他们很清楚软件本来就是自己做的,云服务厂商只要提供资源就可以了。
其实在我看来,云上面的数据库中间件也好,大数据计算也好,都不是云最核心的。这些都是云原生的一些系统,云原生跟云不原生还是有很大的区别的。
中国的客户,还是买资源,不是买的你的能力。但像Snowflake,用户购买的不是资源,他们买的是能力。我们的数据库现在慢慢的也在从资源到能力。
我们不希望你想我买了多少台服务器,我买了多少台内存,这个跟你没关系。你是要有可以处理,要处理多少QPS(QPS:Queries Per Second, “每秒查询率”,是一台服务器每秒能够响应的查询次数)才是你关心的。实际上这个商业模式有个很高大上的名字,也不叫SAAS了,他们把这个东西叫Serverless,就是说最终你也不用关心这个硬件了。例如要做一个翻译,你只要把文档输进去,那个文档拿出来就可以了,不见得要去注入两台服务器,然后把文档这个软件布上去,然后再去干这个事情。
钛媒体:最近也见了很多大平台的人,有一个特别明显的感觉,就是所有大平台都在做从工具到能力的转化。平台大到亿级用户的规模,其实触达很多天花板。但是一旦转成能力,就是古人所说的大象无形,跟客户,跟生态全混在一起了,做的再大了,外界也是看不到,但它其实变得越来越强。
咱们第一次见面,在讲被集成,后来在谈云钉一体、低代码,现在兜兜转转Back to Basic,这三年完成了一个周期。我记得一开始咱们在谈被集成的时候,我就在问怎么把这些东西变成能力封装起来。经过了这三年,思路变得很清楚了。三年前大概方向是知道的,但是到底封装什么东西,包括生态怎么去建设,也不是那么清晰。
张建锋:按照你的逻辑,卖盒子是最容易的——我把服务器卖给你,你怎么装我不管。后来就是云上卖资源,那就要调度了,现在资源我也不卖了,我就卖能力了。商业模式越来越贴近用户的本质需求,但是对于下面的技术要求就会越来越高。你要管理好,才有利润。
钛媒体:对阿里云来说挑战还是挺大的。按照我的理解,阿里云变成了两线作战,一个往下——重新要把这些能力做深度研发,做重新的封装;另一条战线往上,如何在新的商业逻辑上把生态建立好。以前大家觉得阿里云无所不能,你就要把这个界限分开,重新在你的基础上一层一层的把生态搭建起来。
张建锋:这里面一个很重要的标准,就是能够做云原生的那些人。就像Snowflake,这些人来自于哪里呢?一方面是原来一些传统供应商的转型,比如说奥运会开一次,但是上面的很多软件供应商都转型了。
所以你是买License,还买SaaS,那是商业模式的一个选择。但是从技术上肯定不可能回来了,肯定是云的,这是个必然的一个趋势。
钛媒体:回到刚才说两线作战,阿里云的资源,包括你自己的精力去怎么分配。
张建锋:这个也不存在两线。我们第一把基础设施做好,刚才我还没有解释,我们上面其实形成了两个平台,因为我们还是要看客户的需求,客户的需求还是数字化转型,这个是核心需求,所以实际上我们在数字化转型上面,我们会继续做。一个平台提供大数据分析、AI等能力。我们现在也会选择一些数据密集型的行业作为重点,这方面我们也有一些新的集群在构建,主要客户也是类似像汽车行业自动驾驶,他们的数据非常密集。
另外一条线就是终端客户。我们希望客户的整个数字化解决方案中用户触达的一个平面,是在钉钉上。因为首先钉钉提供了一个统一入口,第二,我们提供了非常多的一些工序,可以更快速地开发。因为它有一些基础的功能已经建立了,包括什么样的通讯录,组织架构已经建立了,权限控制,基本的能力,也有沟通等等,包括文档,办公。应用系统我们仍然觉得有成本,所以我们现在搞低代码。
低代码其实也不是只有阿里有个低代码,还有两家比较大的外部的低代码平台。因为低代码平台其实对某些行业还是有一点点关系的。这个才是一个大的图——云端的核心产品上再建两个平台,一个是做数字化的计算、算力、AI等等,另一个是基于钉钉的入口。
钛媒体:怎么能给这个生态更好的红利?未来其实大家都是生态之争了。
张建锋:往上的层面,从整机到部件,是一个逐渐分化的过程。阿里是没有做整机的,我们还是高度依赖于合作伙伴,不管转换器、路由器、服务器都是这样的。
这个生态怎么构建呢?这个生态可以更透明,包括用一个什么样的交换机。现在交换机其实变得很薄了,因为它不需要处理太复杂的协议。这对产业发展已经带来了非常大的推动了。
交换机里面需要很多芯片,我们有几个大的类目,不仅需要GPU、CPU,很类似的controller去控制硬盘的芯片等,一方面自己也在做,一方面也可以用其他供应商。
我们总的策略是一云多芯,这样话才真正给生态更大的可能性。阿里云如果不支持多种CPU的话,那么新的CPU是没有机会被客户购买的。实际上因为有云了,之后才能支持多个芯片,包括很多国产的CPU。以前你还是只能卖单机,这种方式肯定不符合未来的发展趋势。
今天阿里云已经变成全世界支持CPU最多的一家云厂商。
其实中国原来的CPU不能发展,最大的一个问题是没办法形成生态。自己单独去构建整套软件栈是非常困难的,有云之后,它很好的一个机会,下面CPU的差异性都由我来处理。
钛媒体:这次提的创新,它其实是一个体系性的工程。
张建锋:我总觉得这几年应该是云计算最关键的时候。以前是分布的系统,慢慢构建一个可弹性售卖的系统。本质上它的核心是分布式系统,有能力做分布式系统的,号称自然都能做云。今天云是一个新的结构的引进,这个时代不知道是VMware+英伟达,还是微软自己的一套体系,还是AWS一套体系。
云计算里面不可能像以前Windows+英特尔,有这么一个大一统的生态。但这几家的近战还是很白热化的。但中国今天真正在做这方面的工作,我认为是没有的,人家做的云计算跟我们做的云计算,不是一回事情。
钛媒体:如果做这么大的调整,对阿里云整个团队来说,会有什么新的能力的要求?
张建锋:我们对底层的技术——做芯片、做FPGA、做网络的,做存储的,做自己Controller 的,应该是阿里云最主要的一个方向。
钛媒体:你其实是一个技术特别强的CEO,在这个思路下的创新,可能真是找到了属于你的战场。在这样一个结构性的变革在里面,大家都有机会。怎么让更多的人能够看到机会,能够让他们觉得有机会,能够加入进来?
张建锋:刚才我们讲云原生,我们希望更多的一些软件,能够基于一个云上的构建。
中国今天最牛的云原生应用,还是比较少。但美国是有一长串的,中国还没有这方面的东西,有一个很大的沟要填。
钛媒体:生态建设里面很重要的一件事儿,就是怎么去扶持这些新的在云上做云原生开发ISV。
张建锋:今年阿里云有很多出去创业的,对我们来说,应该是个很好的开始。因为他们不可能去做云,但他们是最熟悉阿里云的,他们会去做云原生的一些东西。他们要做细分市场,那其实非常好。
关于云计算和阿里云的未来
钛媒体:外界传言达摩院要自负盈亏,这是真是假?你怎么看达摩院的过去的工作成效?
张建锋:达摩院不是什么都研究,主要是研究数据智能,已经四年多了。第一阶段工作非常好,我们把集团跟人工智能相关的一些主要基础技术模块都构建起来了——包括语音、自然语言处理、视觉、翻译,还有像天猫精灵这样的产品。
第二,达摩院也做了一些有益的创新,包括像自动驾驶、小蛮驴,也在做一些偏向长期的研究,像量子计算。
第三部分就是跟阿里云的技术有些相关的,比如做加密数据库的实验室,面向5G的实验室也在做,也有些芯片相关的也在做3D堆叠,发了一些很高质量的论文。
达摩院的研究方向要有市场牵引,但不是用赚钱来考核的,更没有自负盈亏这一说法。达摩院的研究成果很难用钱来衡量,因为钱只有通过阿里云卖给**客户才能展现价值。但在我看来,这只是他们创造价值中的很小的一部分。
今天对达摩院来说挑战还是有的。疫情来的时候,我们很多科学家在外面,很难展开面对面的交流。第二,中概股下滑,美国公司的股价还是很坚挺的。这个其实非常严重的影响到了薪酬的竞争力。如果互联网公司都没办法去招揽更高质量的人才的话,其他企业就更困难了。
钛媒体:你怎么看国资云?
张建锋:我们跟国资云不是竞争而是合作关系,阿里云也参与了一些国资云建设,提供基础技术。还有一些是国企建的云,今天很多超大型客户也在建云,目标就是把原来的巨量资源用一个新的资源来替换。比如说一家超大型企业,就是采购了阿里云的技术,管理超过万台的服务器。
钛媒体:下一个也是个热点,就是刚才咱们也谈到了东数西算。
张建锋:刚才我讲过,这个核心就是怎么将经营成本最低化。那边电很便宜,但如果能解决带宽不经济,那肯定是个问题。还是需要进一步跟进的政策。东数西算对云计算肯定是好消息,我们有把握把PUE做到很低。
钛媒体:阿里云最近做了很多高管的调整,背后的逻辑是什么?
张建锋:背后的逻辑,其实我们还是强化了整个我们原来做的行业区域组织,这个组织我们想把它更强化。现在行业区域都向蔡英华汇报,我相信这方面协同效率会更高一点。我个人更多的时间会投入在产品技术上。
钛媒体:想请你分析一下,阿里云和其他云的区别。
张建锋:差别就是大家怎么看待下一阶段的云计算发展方向这个关键问题?对这个问题的理解就是导致了对云的理解。
云有几种情况。原来的分布式计算变成可售卖的资源,这个效率很低,只是解决了可分布式的问题,但没有解决资源可高效调度的问题。
第二类是OpenStack,小规模可以做,几十台几百台的,叫融合计算,也发展的不错。但这个跟公共云代表的大规模的云,不是一个概念。这个要么在细分市场上有一定的市场,但不是大的方向,随着大家对云的认识,还是会迁移到公共云上。
钛媒体:最近还看到一些数据,海外的几个厂商就增长率还是很可观的,而且它体量也很大的。中国今年其实整个云计算发展速度还是放缓的。你怎么看待这两个的这种发展差异呢。
张建锋:我们讲的云计算跟他们讲的云计算,可能很不一样。中国可能把原来的IT 的信息化转型的和软件项目很多部分都揉在了一起,导致里面的内容可能比较多,东西不一样。
我个人觉得随着大家会更关注云是什么的时候,我们这个概念的纯度会变得更高。第二,中国很多客户的想法不一样,我们有很多超大型的客户,会选择混合云,这个也是理念的一个差别。第三个,去年对全球其他国家来说,数字化是有高速发展,但中国像游戏、教育这些云算力消耗的大户表现不佳,有很大影响。
这些数字其实不重要,重要的是中国云计算能不能抓住这个时间窗口,真正从体系结构上进行定义,而不是做一些重复的项目。
钛媒体:关键核心技术的研发,你怎么平衡短期、中期、长期的投入和产出?
张建锋:例如做裸金属服务器,2017年立项,做了好几年了。但是回过头来看,如果没有这个技术,你跟国际巨头来比,是分分钟会被淘汰掉,所以有时候这是必然的选择。
我们的好处就是我们对这个事情的判断没有晚于他们,而且商业化的时间点比他们还更早。大家都在同一条起跑线上,大家都有同一个目标,怎么样把成本降到最低,把性能提到最高。所以这个投入不是说有没有什么选择,是没有选择的。
钛媒体:这个说法,有点让我想起阿里云最初那个和技术死较劲的状态。
张建锋:每个人做云计算的出发点都不一样的。AWS一开始是S3,是一个存储,严格意义上讲是个网盘,有个API接口。但阿里云做云第一个推出的既不是存储,也不是计算,是ODPS(现MaxCompute),大数据计算。慢慢大家整个大厦就构建起来了,所以这个还是个螺旋式上升的。
钛媒体:现在整个市场发展还是变慢了,某种意义上讲,其实也是一个好事。刚才也谈到窗口期,你觉得这个窗口期会有多长?
张建锋:阿里云的核心产品,跟国际那帮巨头没有大的差别,可以打一打。不是说今天我们在中国才有这个机会,在东南亚和他们同台竞技也没什么问题,只是我们的利润率和他们比确实要低。
这是有几个因素导致的。第一个是产品化的成熟度,国外厂商的产品确实成熟度很高。第二,是规模,我们的云计算要到国际去竞争,没有1000亿纯的云基础设施的体量是不够的,人家已经到几千亿了。到现在如果只有几十亿、几百亿的,我认为是没有机会的,这个市场并不是这么一个市场。
钛媒体:应该恭喜阿里云迎来了一个盈利的年度,规模也过了1000亿。盈利的背后到底是哪些因素发生了变化?
张建锋:规模。因为研发成本虽然还在逐年上涨,但相对来说是比较固定的,需要很大的规模去摊销。
我们现在一万多员工,AWS 7万员工,研发工程师可能有四五万左右。人家因为现在做了很多的细分产品。我们现在比较有克制,避免过快的细分。因为细分的话,我们的规模还不够。
钛媒体:是不是可以认为过了这个规模,盈利应该变成一个常态。
张建锋:规模到的话,应该肯定是个常态。我认为现在规模还不够,我们还要继续扩大。
钛媒体:现在海外市场在整个战略里面现在是个什么位置?
张建锋:我们海外市场主要是在东南亚和沙特。沙特做的不错,我们做了一个合资模式的“国家云”。此外,还有中国客户的出海。
国际化是我们很重要的一个战略。有几个因素。第一在很多地方,就是我们的产品有竞争力,价格、性能也好。第二其实我们也需要一个国际化的平台去竞争,才能保持这个产品的创新性。
钛媒体:相对其他业务,例如电商和游戏,云计算出海是不是更难?
张建锋:是的。例如合作伙伴的门槛。合作伙伴需要测试输出、认证,这个还是很大一个挑战。因为他可能通过了AWS 的所有测试,他愿不愿意通过你的所有测试呢?这是一个要慢慢积累的一个过程,也是很大的一个投入。
第二,产品的完成度,包括文档,因为它中英文,这个也是要逐步完善的。
第三,其实AWS 、谷歌也有竞争的目标。所以他们在东南亚一带,也天天想着怎么超越我们。竞争还是非常激烈的。(本文首发钛媒体APP)
页:
[1]