7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)在上海世博中心开幕,WAIC 2024作为全球最高规格的AI产业盛会,今年共有500多家企业参展,汇聚了超1500件展品,大模型成为本届大会的“重头戏”,国内主流大模型齐聚上海滩,既包括科大讯飞星火、百度文心一言、阿里通义、腾讯元宝、华为盘古等市场热门产品,又囊括百川智能、智谱AI、Minimax、阶跃星辰等新锐实力。
从今年WAIC 2024展会可以看出,大模型产业逐步由虚向实、锚定场景、深耕行业,不断发挥赋能价值。本次是讯飞星火V4.0、讯飞晓医、星火企业智能体平台正式发布后的首秀,不但展示了讯飞星火V4.0在学习、生活、工作等多场景下的最新应用成果,还面向行业场景与企业客户提供了丰富的解决方案。
国产算力自主可控 星火V4.0拿下“中国唯一”
去年,AIGC(生成式大模型)开启了人工智能崭新的时代,“生成”实际上是前端呈现给用户的结果,其后端还需要经过复杂的训练和运算。因此在大模型的底层,算力扮演着重要角色。大模型数据训练的时长或者创新的快慢,根本上取决于算力的大小以及稳定、持续地供应。但随着中美科技博弈的加剧,如何保障大模型算力的持续供给,防止技术封锁与“卡脖子”的发生?
正如科大讯飞董事长刘庆峰所言,国产底座能力决定了企业在这条路上到底能走多远,要以长期主义来打造我们真正自主可控的AI产业生态。据讯飞星火V4.0发布会介绍,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。在国产化的底座下,能为行业带来更高的话语权与安全性。
无论是从技术迭代还是数据安全等维度,建立自主可控的国产算力底座无疑才是“最优解”,科大讯飞肩负“AI国家队”的责任与使命,致力打造自主可控的AI产业生态。这次星火大模型V4.0最醒目的优势,就是基于全国首个国产万卡算力集群“飞星一号”训练,不仅算力与算法自主可控,而且代码完全自己编写,数据完全自己清洗,成为中国唯一全自主可控的大模型。
对标GPT-4 Turbo ,国产大模型打造“更懂你的AI助手”
作为人工智能国家队,科大讯飞一直积极投身于通用人工智能技术浪潮,自去年五月正式发布讯飞星火大模型,持续对标国际最先进水平,以自主创新推动每一次技术跃迁。
讯飞星火V3.0已实现了对ChatGPT的整体超越,医疗领域更是超越GPT-4.而在更早的星火V2.0那一版本,知名科技媒体《麻省理工科技评论》就对中国四款主流大模型进行横评,结果讯飞星火力压群雄,被评为“最聪明”的中国大模型。
就在WAIC前夕,6月27日,全新升级的讯飞星火V4.0如约而至,科大讯飞交出讯飞星火下半年的“成绩单”:8个国际权威测试集测评第一,整体超越GPT-4 Turbo。在发布会上,科大讯飞根据《通用认知智能大模型评测体系》构建测试集,结果显示讯飞星火V4.0在文本生成、语言理解、知识问答、逻辑推理、数学能力等维度全面超越GPT-4 Turbo,代码与多模态能力也大幅提升。而在国际组织的12项测试集对比中,讯飞星火V4.0也实现了8项超越,其中理解与推理能力在四大机构测试中取得“全胜”战绩,该能力也是大模型最基础、却又最核心的能力,可以帮助AI思考、分析、理解和掌握事物的本质和运作规律,讯飞星火实力捍卫“国产最强大模型”站位。
全新升级后的讯飞星火V4.0“智商”再进化,在上个月结束的中高考实测中,讯飞星火语数外各科“成绩”均排名第一,被业界评为“更会做题的大模型”。全国中小学生作文竞赛评委吕政嘉和河南省基础教育教学专家库成员李来明共同选取了新课标I卷高考作文、新课标II卷作文、北京高考(1)和(2)卷作文这四张试题“刁难”7款大模型,结果讯飞星火作出的《问,岂可少?》得到51.5的最高分,不仅思路清晰,而且鞭辟入里,发人深省。而在新京报对星火V4.0与GPT-4o进行的中考作文实测中,星火V4.0以36.5平均分力压GPT-4o。
除了在底座能力上对标国际领先水平,具体到大模型的落地打法和实用性,讯飞星火还走出了一条自己独特的发展路线,让大模型从“通用AI助手”跃迁到“懂你的AI助手”,开启大模型“私人定制”时代,让大模型更好用、更实用、更具“个性化”。讯飞星火V4.0版本全新发布“个人空间”功能,用户可以上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再结合人设,让大模型生成更个性化内容。此外,讯飞星火首批上线 14 个智能体,面向特定场景打造专属助手。
同时讯飞星火作为业界首个支持长视频、长文本、长语音的大模型,讯飞星火V4.0版本的长文本能力也全新升级,并针对长文档知识问答的幻觉问题,业界首发了溯源功能,大大提升大模型工作、学习“可用性”。
软硬一体化落地 解决大模型应用的“最后一公里”
一款大模型的产业价值,不仅要看算力与算法等数据参数,更要看如何与垂直行业进行结合,以及产品在刚需场景下如何落地。同时大模型与行业结合时二次开发、对接成本尽可能要小,否则就是中看不中用的“绣花枕头”。科大讯飞采取的策略是,用更小的算力、更高的效率,来打造企业专属大模型。并通过软硬一体化协同,让大模型由虚向实,从落地深耕迈向落地“生根”。
具体来看,科大讯飞基于云边端一体化和软硬件一体化,在智能家电、智能汽车、运营商、机器人等行业场景实现全面赋能。比如科大讯飞与奇瑞联合打造的星纪元ET智慧座舱,就通过星火大模型作为智慧中台,打通了心率传感器等内外部设备,可以对司机进行心率监测提醒,确保长途行车安全。还有业界首发的星火智能批阅机,看似打印机的外表,却拥有自动批改试卷的“魔力”,让老师减负增效,将更多精力投入到学生的五育教育上。
面向更多行业场景,讯飞还以企业智能体的方式,面向特定行业、特定场景打造专属AI助手,讯飞星火V4.0发布会现场正式发布星火企业智能体平台。据了解,围绕搭建智能体的三大关键能力,当前星火企业智能体平台已覆盖400+AI原子能力,集成90+外部信源,打通100+内部IT系统,可供企业结合业务场景快速构建可落地的智能体应用。平台还围绕生产域、科创域、办公域、管理域上线32个企业智能体,供企业即插即用。星火企业智能体平台打通了场景价值落地的最后一公里,也帮助企业打通了大模型应用的最后一公里。
正是凭借真正的实用与好用,使得星火深受企业欢迎。根据数智前线披露的2024上半年大模型招投标情况,科大讯飞成为了外部订单数量最多的“标王”,央国企为代表的行业客户成为星火最大客群。在讯飞星火构建的大模型算力底座下,企业可以根据自身业务需求去匹配不同的算力,用最小的算力实现更高的效率,也就是“杀鸡焉用宰牛刀”的逻辑,最终实现效率最大化与效益最优化。
再回到本届WAIC,今年大模型参展数量多达百款,多家厂商带来了产品和技术“首秀”,再次让“百模大战”得以具象化,在现场你会感受到大模型赛道的蓬勃生机,同时也暗藏优胜劣汰的残酷竞争。
对于国内的大模型厂商来说,理性看待差距,坚持长期主义精神,是决胜关键。在国际人工智能拉力赛中,国产大模型在迎头追赶的同时,对方也在快速迭代,只有正视差距,才有机会赶超。在讯飞星火V4.0发布会上,科大讯飞董事长刘庆峰说道:“我们既要科学理性地认识中美在大模型上的综合差距,也要有信心快速追赶,给出从源头技术、到产业生态、再到应用落地的一整套的打法,以长期主义来打造真正自主可控的AI产业生态。”
刘庆峰坦言,讯飞星火V4.0已经实现了GPT-4 Turbo的对标,在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越,但在代码和多模态能力上还有差距。代码是连接虚拟世界和物理世界的桥梁,这个能力是中国大模型一定要抢占的核心能力。在讯飞星火V4.0发布会上,科大讯飞也介绍了代码领域的最新进展:持续迭代的代码智能体iFlyCode集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体,将采纳率由30%提升至52%,大幅度提升企业智能体的实用性。据了解,代码智能体已在银行、家电等行业在内的100多家企业以“AI程序员”的身份上岗。以交通银行为例,基于星火大模型能力的产品iFlyCode覆盖6000+研发人员,代码采纳率达38%,工作效率显著提升。
刘庆峰表示,代码能力是科大讯飞非常关注的能力之一,因为它涉及未来的产业信息化和信息产业化的核心,而ChatGPT去年2月份通过谷歌二级程序员测试,当时的GPT-3.5用这个测试集只获得了60多分,GPT-4 Turbo今年1月份测试大概在80分,现在到86分,也在快速迭代和进步。科大讯飞预计在今年8月份,讯飞星火将达到86分以上的水平。
随着讯飞星火V4.0重磅发布以及在WAIC上的升级后“首秀”,可以窥见讯飞星火作为国产大模型代表,已在技术底座、商业化落地等方面彰显出引领性。未来,在以商业落地为重头戏的后半场,随着AI助手的持续打造以及一系列的落地动作,无疑都会助其再次占领行业竞争的先机。