竞争人工智能:从论文突破性看中国人工智能创新水平
- 论文大全
- 2024-03-14
- 121
摘要
人工智能已经成为各国科技创新的竞争高地,以等通用人工智能应用为代表,中国在该领域的创新似乎一直处于跟随者的状态。我国在人工智能领域的创新能力究竟如何,又面临哪些掣肘?本文聚焦AI的论文发表,衡量人类知识网络的突破性创新能力,解析中国人工智能的突破性创新水平与面临的挑战。过去二十年,我国在人工智能领域的突破性创新能力取得了长足的进步,已跃居全球第二的水平,但在人工智能的创新能力方面与美国差距仍然较大,并且面临三大挑战:第一,科研机构论文发表量多,但突破性成果少;第二,科研人员的规模大,但尖端人才少,部分前沿短板领域科研人员相对不足;第三,商业机构在人工智能突破性创新中的缺位问题突出,限制了突破性人工智能产品的推出。
2022年11月30日,发布对话式大型语言模型,在2个月内用户量破亿,被称为“人工智能领域的里程碑”。2023年2月8日,集成了语言模型的搜索引擎新版“必应”上线,响应效率显著提升;3月15日,该公司随即发布更为完善的多模态预训练大模型GPT-4,较进化出读图和长内容生成等能力。这些应用发明使人工智能在应用广度和智能程度上都取得重大进展,能够通过多个行业的入门考试,并在人机交互中深刻理解用户意图。由此掀起的人工智能浪潮中涌现出大批初创企业,而头部科技大厂之间的竞争也进入白热化,的Bard、百度的“文心一言”、的、Quora的Poe接踵而来。回顾人工智能领域的历次突破,中国似乎一直处于创新跟随者的地位,我国在人工智能领域的突破性创新能力究竟如何?
突破性创新是开拓认知边界、引领未来创新活动的重大创新成果。论文发表因其良好的可比性、客观性和科技相关性,被主流国际机构当作衡量创新成果的重要指标。围绕突破性,本文基于论文发表搭建人类知识网络,从影响力和原创性两大特征出发,构造突破性指数来度量每篇论文的突破性程度,将各年度内排名前1‰的论文认定为突破性论文,并根据作者在发表年份所属机构的国别按作者人数计算贡献比例,以评估中国在人工智能领域的突破性创新能力与国际差距。
一、人工智能是未来科技突破的重要方向,中国创新落人一步?
人工智能正成为未来全球科技突破的必争之地。在不同时代,人类在知识领域实现突破性创新的重点学科并不相同。从学科结构来看,数理化学科在20世纪中期前是科学研究的主要领域,建立了相对论、量子力学和原子核结构等理论基石,而随着基础框架的建成和研究转向技术应用,其突破高发期似乎已经过去,突破性成果越来越多地出现在医学和计算机学科(图1)。
其中,后者作为突破份额位列第一(30%)且保持长期增长态势的领域,其论文发表经历了过去一个世纪的稳步积累,在信息时代一跃成为强势学科。随着硬件性能提升、数据的指数型增长,以及深度学习等技术的不断发展,人工智能在计算机学科中的地位越发凸显,突破性论文的份额快速上升至计算机领域的38%、全领域的11%,不仅可作为技术基础大幅提升效率、降低成本,还在自动驾驶、智能家居、医疗健康和金融风控等众多领域具有广阔的应用前景。
此次正是人工智能领域的一次重大突破,其定位于通用任务助手,背后的AIGC技术颠覆了现有的信息获取与人机交互方式,对搜索、推荐、内容生成等工业流程都产生了深远影响。受政策支持和市场竞争推动,人工智能的突破性创新趋势或将长久持续,AI与人类社会的深度融合已是必然。
图1 数理化逐渐式微,计算机医学快速突破
回顾人工智能的发展历程,美国过去三个历史阶段的学术突破中都占据主导。自1956年美国科学家提出“人工智能”的概念以来,该领域的发展历程可划分为三个阶段:
然而,根据欧盟委员会总结的各阶段的重大学术突破(图2),其中绝大多数都来自美国机构的学者。2018年人工智能知识创新出现新一轮快速增长,基于无监督学习的大规模语言模型使阅读理解、机器翻译、问答总结等无特定任务的训练得以高性能地完成,同时科技大厂加速研发出品,以抢占新市场、夺得制定规则的话语权,这或标志着人工智能正在进入第四个“类人交互”的新阶段。
图2 人工智能领域的全球论文发表数与重大学术突破
就突破性而言,近年来我国的人工智能发展似乎总是跟随着美国的脚步。人工智能曾被认为是“几百年来中国第一次与世界前沿的发达国家站在相同起跑线竞争的难得机会”,其作为快速迭代的近代学科,以显著短于能源、制造等领域的知识创新成果转化和商业化周期迅速落地,似乎让各国看到了“弯道超车”的希望。然而,现实中人工智能领域的赶超并不容易,在技术、数据、人才、资金和产业生态方面都具有很高的壁垒。近年的绘图师DALL·E和图文对比器CLIP等具有革命意义的突破性创新,均发生在谷歌和等外国科技公司,中国公司虽然也紧随其后地推出了类似的产品,却无法超越领先,且可能在性能水平、参数规模、样本容量上还略逊一筹(表1)。
表1 以通用人工智能为代表,我国在人工智能的突破性方面较为落后
由此看来,中国在人工智能领域似乎处于创新跟随者的地位。果真如此吗?根据构造的突破性指数,我们发现了一些初露突破潜力的子领域,也揭示出阻碍突破性创新的痛点,并探讨了大国科技竞争下中美学术合作放缓的影响,这为未来的政策发力方向提供了参考。
二、中国人工智能突破性知识创新的发展势头如何?
利用论文引用关系构建的人类知识网络,我们发现,中国人工智能的突破性创新能力虽然与美国比仍然有较大的差距,但在过去二十年仍取得了显著的进步;科技竞争虽然伴随着中美学术合作的相对减少,但还未显著拖累我国在该领域的突破性创新的提升。
(一) 中国突破性论文数已升至全球第二
中国人工智能领域的论文发表总量在2017年反超美国成为全球第一。中国在该领域的创新活动起步晚、但进步快,尤其是2016、2017年出台《“互联网+”人工智能三年行动实施方案》和《新一代人工智能发展规划》等产业发展规划的政策后,发文数增速显著提升,于2017年超越美国、居世界首位,2020年中国论文数(5.1万篇)较美国(4.3万篇)已多出近33%(图3)。
图3 2017年以来中国人工智能论文发表量保持世界首位
从结构上看,计算机视觉(46%)、模式识别(20%)、机器学习(11%)和自然语言处理(8%)成为21世纪以来研究最多的人工智能细分领域,相对全球而言,中国更聚焦模式识别(33%),而美国则更多在机器学习(18%)和自然语言处理(9%)方面发表论文(图4)。
图4 全球、中、美人工智能论文的细分领域分布差异
我国人工智能的突破性论文发表量已跻身世界前列,相较除美国以外的其他国家积累起一定的优势。中国人工智能领域论文数的快速增长始于21世纪初期,其中具有高影响力和原创性的突破性论文在2010年后开始出现。此后新增突破性论文的国际份额由2010年的1.4%,超过日韩、加拿大和英德等欧洲发达国家,于2016年升至全球第二,2020年达到17%(图5)。
图5 2020年中国新增突破性论文份额加速升至17%,居全球第二
从结构上看,2010-2020年中国在模式识别、计算机视觉、数据挖掘、语音识别领域的突破性表现尚可,而在算法、自然语言处理和人机交互领域相对薄弱(图6)。此次所涉及的自然语言处理是美国的强势领域,也是图中人工智能的主要领域中,中美人工智能差距最大的领域。
图6 所涉及的自然语言处理是中美差距最大的领域之一
中美人工智能领域突破性论文的绝对差距依然明显。尽管近年来美国的新增突破性论文份额有所下降,但基本维持在40%以上。存量来看,2015-2020年间美国突破性论文数达到304篇,超过其他排名前十国家的总和(图7);如果将时间尺度拉得更长,从有史以来的突破性论文组成的人类知识网络直观地看,美国人工智能起步早、突破性创新成果的累积优势更为明显,图8中代表“主要贡献者来自美国机构的突破性论文”的蓝色节点数量多、覆盖广,而与中国相关的红色节点则数量相对较少且集中于特定领域。
图7 2015-2020年美国AI突破性论文数一骑绝尘
图8 基于人类知识网络看,中美AI突破性论文数量差距仍然明显
(二) 中美合作强度降低,但尚未对我国AI领域突破性创新造成明显拖累
各国技术应用领先和专业人才引进等目标和举措推动国际科技竞争愈演愈烈,中国也不例外。那么,人工智能领域的学术合作情况如何?大国科技竞争是否对我国发表突破性论文造成拖累呢?
2016年以来,各国开始密集出台相关法律法规及政策,强调人工智能的战略地位并增加投入(表2),中国也在此后发布了20多份文件全方位地强化部署。2017年国务院发布《新一代人工智能发展规划》,表示“人工智能成为国际竞争的新焦点、经济发展的新引擎和社会建设的新机遇”,并提出“人工智能基础理论实现重大突破,技术与应用达到世界领先水平”的战略目标,在高端人才培养上要“加大顶尖人工智能人才引进力度,鼓励和引导国内创新人才、团队加强与全球顶尖人工智能研究机构合作互动”。各国技术应用领先和专业人才引进等目标和举措推动国际科技竞争愈演愈烈,政府纷纷大幅提升拨款,中国也不例外,据OECD报告,2019年以来中国政府在人工智能领域的科研经费投入已与美国相当。同时《自然》期刊发现,随着中美关系不确定性增加,两国合作论文数自2018年开始增速放缓。
表2 2016年以来各国密集出台人工智能相关的法规和政策
我国人工智能领域的中外合作论文数仍在加速增长,但中美合作比例在2018年后出现下滑。2000年以来,中国与海外合作完成的论文数量呈指数级上升,由2000年的500多篇增长至2020年的近1.8万篇,成为除美国(2.5万篇)外海外合作论文数最多的国家。
从合作份额来看,2020年中外合作发表论文占中国参与发表论文的比重为29.5%,低于2020年美外合作发表论文占美国参与发表论文的比重59.3%。其呈现的U型趋势体现出合作关系的演变时期,分别是2001-2008年国内人工智能论文发表数大幅上升、国际合作相对平稳,2009-2016年中外合作规模快速壮大,2016年后国内和中外合作论文同步加速提升,以及2018年后因中美关系出现波折,中美合作带动中外合作占比出现暂时性的下降(图9)。
图9 海外合作越来越成为中国人工智能领域论文的重要形式
从合作对象来看,中国最主要的合作对象仍是美国,两国合作的人工智能论文占中外合作总量的51%左右,其他主要合作国家还包括英国、澳大利亚、新加坡、加拿大等(图10)。
图10 美英为中国人工智能领域海外学术合作的主要国家
突破性论文的中外合作比重远高于全部论文,中美论文合作份额被中国与其他国家的合作取代。2010-2020年中国人工智能领域突破性论文的合作比例始终高于60%,远高于全部论文中的合作比例(图11),这印证了国际合作能够结合科研人员的差异化视角和不同地域的多样化场景,激发突破性创新的灵感。
图11 突破性论文的中外合作比例更高
趋势上看,突破性论文的合作比例未随全部论文的合作比例一起显著上升,而是在高位小幅波动,2018年以来中美在人工智能领域合作突破的势头出现明显衰落,两国共同发表的突破性论文占全部突破性论文的比例由2017年的62%下降至2020年的38%,而同期中国与其他国家的合作则由17%上升至30%,在一定程度或体现出学术合作对象的转变。考虑到我国人工智能领域突破性论文的国际份额加速提升,且突破性论文中的中外合作比例尚未出现确定性下滑趋势,中美学术合作下降或尚未对我国突破性创新造成很大的消极影响。究其原因,尽管中国也是美国在人工智能领域发表论文的最大合作对象,2010-2020年两国合作发文数为排名第二的美英合作发文数的两倍左右,但在同期美国参与发表的突破性论文中,美英合作比例(27%)却高于美中(20%),这可能也在一定程度上表明中美在最具突破性方面开展论文合作的比例并不高。
图12 中国突破性论文的合作情况
三、人工智能突破性创新的痛点在哪?
尽管我国人工智能领域的创新势头迅猛,但距离美国还有明显差距。从科研机构和科研人员的情况来看,突破性创新尚存在一些痛点,或阻碍我国扭转“落人一步”的被动局面。
(一) 拔尖科研机构相对稀缺,创新成果良莠不齐
国际一流水平的科研机构是孕育突破性创新的摇篮。根据2010-2020年人工智能领域的突破性论文数量对作者的所属机构进行排名,我们发现中国存在拔尖科研机构相对稀缺、创新成果良莠不齐的问题。
中国科研机构在人工智能的论文发表量上占据半壁江山(表3),但百强突破榜上仅有十席(表4)。在论文发表总量位于全球前20名的科研机构中,有11家来自中国、6家来自美国,其中中国科学院以近1.8万篇居于榜首。但聚焦突破性成果时,中国的论文数量并未充分转化为质量优势,这11家中国机构发表的突破性文献仅占其发表总量的0.2‰,远低于6家美国机构的5.6‰。百强突破机构中,仅有大陆的6所高校和百度公司,以及中国香港的3所高校上榜,而美国则包揽了前20名中的13家,谷歌更是以断层式的123篇排名第一。
表3 中国科研机构在人工智能领域的论文发表量上排名靠前(2010-2020)
表4 中国科研机构在人工智能领域的百强突破性机构中仅占十席(2010-2020)
创新成果良莠不齐。中国人工智能领域的突破性表现相对优异,但论文发表整体上仍呈现“量多质低”的缺陷。从论文突破性程度的分布来看,2010-2020年中国所有论文的平均突破性程度位于全球第55百分位,57%文献低于全球平均水平,超四成未曾被引用;而美国所有论文的平均突破性程度位于全球第46百分位,44%文献低于全球平均水平,近三成未曾被引用。这表明中国影响力差和原创性低的论文发表还很多,除了促进突破性创新,其他非突破性创新成果的质量较低。
(二) 科研人员规模优势并未转化为突破性创新
人才是促进知识创新的第一资源,撬动人口规模优势促进突破性创新是中国加速人工智能领域发展进程的重要方向。根据2010-2020年发表论文的作者,分国别和领域统计科研人员数量,我们发现中国科研人员的规模优势尚未充分转化为突破性创新优势。
中国在人工智能领域发表论文的科研人员量居全球第一,但在各领域均未充分转化为同等比例的突破性论文发表。2010-2020年间,总共有超过54万名中国科研人员在人工智能领域发表论文,占全球总发文科研人员数的27.2%,高于美国的36万名(图13)。
图13 2010-2020年在人工智能领域发表论文的中国科研人员数超过54万
然而,图14中各细分领域中国科研人员数量的国际份额均明显高于图6中突破性论文的份额,表明科研人员中拥有突破能力的顶尖人才比例较低,整体科研素质有待提高。
图14 2010-2020年人工智能细分领域发文科研人员的国别分布
结合趋势来看,2010-2020年中国在算法以外的细分领域的发文科研人员增速均快于美国(图15)。
图15 在算法以外的细分领域,2010-2020年中国的发文科研人员增速均快于美国
(三) 商业机构参与程度低,或不利于商用场景落地
放眼全球人工智能的创新推动者,商业机构在发表突破性论文方面起到非常重要的作用。
一方面,商业机构具有较强的突破性创新能力。2010-2020年全球人工智能领域的论文发表中,商业机构的份额基本稳定在5%左右,而在表4的百强突破机构中,18家商业机构的突破性文献占总突破数的28%。
另一方面,商业机构贡献更高的突破性论文的研究方向具有更明确的商业落地场景,如图16红圈中的机器翻译、问题回答、计算机视觉、图像识别等,而学术机构则更多地发表通用性理论和算法相关的突破性论文,如红圈外的深度学习、卷积神经网络、强化学习等。举例来说,谷歌发表的BERT: Pre- of Deep for 提出了预训练模型,可应用于问题回答、文本分类、机器翻译等自然语言处理任务,并直接嵌入谷歌搜索引擎和语音助手;在2014年发表的: the Gap to Human Level in Face 介绍了人脸识别算法,已经在门禁系统、支付验证和社交网络等场景得到广泛使用。这些来自商业机构的突破性论文或更倾向于解决实际问题和市场需求,能够依靠现有的工具和系统等基础设施进行集成和部署,且更容易通过机构的商业模式快速落地,产生经济效益和社会影响。
图16 商业机构贡献更高的突破性论文研究方向具有更明确的商业落地场景
中国商业机构发表的人工智能突破性文献较少,或严重阻碍我国人工智能在商业应用上的创新和落地。中国的商业机构相对更少地参与人工智能的学术论文创作,约占中国年发文总量的3.9%,低于世界平均(5.2%)和美国水平(9.8%);且中国商业机构的突破性创新能力较美国有非常大的差距,曾在2010-2020年发表过突破性成果的只有百度、华为、商汤、腾讯、阿里巴巴、京东6家,它们相较海外商业机构发表的突破性论文也更少,进入百强突破榜的仅有百度和华为(表5)。长远来看,商业机构的缺位或导致我国技术应用方面的突破性论文提升缓慢,进而阻碍人工智能产品商业化落地。
表5 中国商业机构在人工智能领域的突破性论文成果相对较少(2010-2020)
四、总结与启示
通过梳理全球人工智能领域的论文发表情况,衡量和比较人工智能领域论文的突破性程度,我们大致刻画出中国人工智能创新水平在全球所处的位置。
从总量上看,中国人工智能的论文发表量在2017年反超美国成为全球第一,突破性论文发表量在2016年升至全球第二、2020年国际份额达17%;结构上,中国在模式识别、计算机视觉、数据挖掘、语音识别领域的突破性表现尚可,而在算法、自然语言处理和人机交互领域相对薄弱。
从国际比较来看,中国在人工智能领域已经积累起一定的突破性创新优势,并开始领先于大多数国家,但是中国与美国在突破性创新的差距依然明显,中国人工智能领域的突破性论文尚不足美国的一半。大国科技竞争下,中美人工智能论文的合作比例在2018年后出现下滑,不过尚未对我国突破性创新造成明显拖累,除了原先合作的质量可能不高以外,与非美国家的合作也起到了一定的替代作用。
数字时代,人工智能的“先发者优势”明显,在逆全球化思潮抬头,知识合作壁垒升高的背景下,提升我国人工智能突破性能力具有重要意义。然而通过比较我国在全球人工智能研究领域中所处位置,推动我国人工智能竞争力面临着三大挑战:
第一,尽管论文总量快速增长,突破性论文的国际份额提升,但我国人工智能领域的论文仍然呈现出量多质低的特征。我国科研机构在人工智能的论文发表量上占据半壁江山,但在全球突破创新能力最强的百强机构榜上却仅有十席,整体影响力相对较低。
第二,我国人工智能领域的科研人员数量并不低,已经居于全球首位,并且还在不断增长,但由于缺少顶尖科研人员,这一规模优势还未充分转化为突破性创新能力。这可能进一步导致国家因创新氛围低迷而陷入“中等技术陷阱”,不利于科研生态的良性发展。
第三,在人工智能的突破性研究中,商业机构的缺位是我国在商业应用导向的人工智能突破性创新稀缺的重要原因。美国商业机构在突破性论文发表以及人工智能商业应用落地的亮眼表现,表明商业机构在突破性论文发表中具有不可或缺的作用。中国商业机构在突破性创新研究中的缺位,可能导致我国在商业应用导向的人工智能突破性创新上难以扭转创新跟随者的局面,进而失去抢占新市场、制定新规则的先机,而这背后的原因值得我们深思。
发表评论