在过去一年,AIGC 以星星之火,点燃全球燎原之势。如今巨变仍在进行,各行各业积极拥抱技术变革,带来诸多智能应用创新。然而开发者在实际落地 AIGC 的过程中,如何做技术选型?如何将前沿技术有效地融入现有业务流程,兼顾实用性和用户体验?如何加快前沿技术落地,进而推动产业升级?
6 月 15 日, 由腾讯云 TVP 与 CSDN 联合主办的「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」活动在上海举办,本次沙龙汇聚 AI 领域产学研优秀代表、技术大咖,聚焦 AIGC落地思考与应用实践,分享最新、最实用的案例,一同探讨如何加快 AI 应用的创新步伐。
从科研到实践的深度探索
数智人“娇娇”全解析
上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利
未来已来,数字人已渗透到各行各业,成为新一代的生产力和创造力。从科研到实践,数智人“娇娇”的诞生,既是技术的集成展示,也是对个性化、互动性未来的创新探索。
上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利在《科研到落地:“数智人-娇娇”》的演讲中,先是回顾近五年来数字人技术的演变历程,梳理当前数字人技术的前沿进展,如基于语音驱动的运动稳定的数字人视频合成,基于显式、隐式记忆增强的语音驱动数字人合成,身份匹配对应学习的高保真人脸驱动,基于解耦潜在运动表征的高保真数字人驱动、高保真音频驱动的歌唱数字人合成等创新研究。
不仅探索学术研究,宋教授还带领团队积极进行技术落地,推出数智人“娇娇”项目。“娇娇”以一位擅长直播的同学为原型,通过拍摄绿幕视频并结合声音数据进行训练而成,“娇娇”可以进行对话聊天、口播、歌曲演唱、新闻播报、健康顾问、多语种口译等工作。“娇娇”不仅体现了数字人在娱乐、教育等领域的广泛应用潜力,还作为首个高校虚拟数字人主播,引发广泛关注。
如今数字人向更广泛的商业和社会应用场景迈进,与此同时,数字人行业存在政策风险和商业模式不确定性等挑战。在宋教授看来,尽管 ToC 市场吸引力大,但 ToB 领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望未来,结合高质量的交互能力将是未来数字人发展的重要方向。
腾讯混元大模型赋能AIGC应用落地
推进产业智能化升级
腾讯云大模型产品专家 屈蕾
腾讯混元大模型历经迭代日趋成熟,坚持全链路自主研发技术,支持众多场景的创新应用,实现技术与应用同行,期待更多开发者与企业加入,共创大模型应用新纪元。
腾讯云大模型产品专家 屈蕾在《腾讯混元大模型全场景 AIGC 应用实践》的主题演讲中介绍,腾讯混元大模型是腾讯全链路自主研发的通用大语言模型,自 2023 年 9 月上线以来,经历多轮迭代,腾讯混元大模型不断成长、性能不断提升,现已拥有万亿级参数规模,从稠密模型架构向稀疏化架构演进,孵化不同的模型形态,采用混合专家模型 (MoE) 结构,提高训练和推理效率及专业领域适应性,具备强大的中文创作能力。
腾讯混元大模型构建三层自主可控的国产大模型全栈技术架构:上层为自研高速网络互联来支撑模型训练,预计 2024 年将达到单集群 10 万卡规模,低端卡也能训练万亿参数大模型;中层为自研 Angel 大模型训练和推理平台,可高效调度异构卡集群,将万亿大模型的推理成本较开源模型下降 70%,并持续优化;底层是采用混合专家模型 (MoE) 结构。
腾讯混元大模型在 SuperClue 和沙利文报告等第三方测评中获得高度评价,效果居于国内第一梯队。目前混元大模型已接入 600+ 腾讯内部业务,其应用场景广泛,如腾讯文档 AI 智能助手辅助文案创作、腾讯会议 AI 小助手自动总结、智能数字人和游戏 npc 的角色扮演能力增强用户体验、AI 代码生成等,实现技术与应用同行,充分释放生产力。
此外,腾讯混元大模型在多模态能力上也持续迭代升级。在生图领域,腾讯混元文生图基础架构已全面升级至 Sora 同款的 DiT 架构,支持中英文双语输入及理解,具备多轮绘图能力,测评结果国内领先;在生视频领域,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成;在生 3D 层面,腾讯混元已布局文/图生 3D,单图仅需 30 秒即可生成 3D 模型。
目前,腾讯混元大模型多模态能力已通过腾讯云以 API 形式面向企业用户和开发者开放,在广告、电商、传媒、游戏、教育等不同行业落地应用。其中,混元生文提供了万亿参数 hunyuan-pro、千亿参数 hunyuan-standard、百亿参数 hunyuan-lite等多种尺寸的模型服务,期待更多伙伴与开发者加入,共同探索大模型的边界与新应用场景,携手推进大模型技术创新发展。
解读QQ影像中心AIGC创新与实践
释放AI无限潜力
QQ专家算法研究员 程培
面对日新月异的 AIGC 技术发展,QQ 构建 AIGC 技术体系,持续推出系列创新工具和应用,赋能用户个性化内容创造,积极探索 AIGC 的广泛应用潜力与价值。
QQ 专家算法研究员 程培在《QQ 影像中心 AIGC 的创新和应用》的分享中谈到,目前 QQ 在基础层,打造出语言以及图文大模型、3D 生成大模型;在组件层,拥有图片/视频生成技术,3D 数字资产生成技术;在应用层,QQ 相机、小程序、天天 P 图、超级 QQ 秀等均已融入 AIGC 技术。
QQ 影像中心在几年前开始部署研究 AIGC 技术,目前取得一些进展:Diffusion 模型广受热议,然而在落地的过程中,面临画面构图不稳定、语义质量差等效果瓶颈,优质结果生成投入成本高等性能瓶颈。早在 2022 年,程培团队针对 Diffusion 模型进行优化,从 0 到 1 搭建“优化-选型-生产-上线”流程,持续进行风格效果训练积累,积累风格超 20 种。最终将优化后的技术应用到 QQ 小世界 520 活动上,得到用户的热烈讨论与关注。QQ 作为国内最早一批上线这类创新 AIGC活动,例如热门特效 “异次元的我”,用户只需上传一张自己的照片,就能通过 AI 识别,一键生成与自己十分相像的漫画图片,当时的传播率极高。
AI 写真照最初用户的使用门槛高,需要用户上传多张不同角度的照片,还要在线训练,对机器资源消耗较大,且可能影响用户体验。如何在不进行后置微调的情况下,只给一张人像照,让 Diffusion 模型具备人脸 ID 的保持、变化、风格化等能力,使得模型的生成结果具备多样性。对此,腾讯推出 FaceStudio,通过先进的混合人脸 ID 引导机制,在不牺牲个人身份特征的情况下,实现风格化的人物图像合成。这项技术成功应用在 QQ 头像定制馆、七夕头像等活动。
大多数扩散模型使用 CLIP 作为文本编码器,这将可能限制它们理解复杂提示的能力,对此腾讯推出 ELLA,可将 LLM 与扩散模型无缝结合,将 LLM 能力注入扩散模型,提升现有文生图模型语义匹配程度,还可轻松集成社区模型和工具,兼容社区生态。并进一步研发 EMMA 框架,解决角色一致性生成问题,使同一人物在不同场景中保持一致,实现连贯的视觉叙事。
在视频生成上,实现稳定且风格强烈的视频内容生成,展现在多人及单人场景中的良好应用效果,目前团队将相关算法落地在 QQ 短视频开发者开放平台。在 3D 生成上,打造超 Q 服饰纹理生成系统,落地超 Q 秀业务,给用户带来崭新体验。
开发者如何拥抱AI 2.0时代?
易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰
开发者积极拥抱 AI 2.0时代,通过在 AIGC 工具层与应用层创新,在细分领域创造价值,无需畏惧被技术替代,致力成为利用 AI 提升业务与个人竞争力的先行者。
易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰在《开发者如何拥抱AI 2.0 时代》中指出,随着 AIGC 的兴起,普通开发者面临被技术替代的焦虑,但同时存在转型与机遇。田杰通过分析最新行业动态、市场数据等,帮助开发者理清思路,鼓励开发者把握 AIGC 新机遇,通过持续学习和创新,成为 AIGC 的弄潮儿。
田杰鼓励开发者不应局限于传统编程语言的学习,更应关注如何结合 AI 技术提升个人竞争力,利用智能体为用户提供更高效、个性化的服务。他表示,“所有的 App 应用都值得用 AI 重新做一遍,这就是应用级开发者的机会”。尽管大型科技公司正积极布局大模型市场,但对于小型企业和个人开发者而言,专注于细分领域、创新业务模式和应用场景,利用好信息差和快速反应能力,如高考志愿填报助手等,通过快速响应市场需求和提供定制化解决方案, 实现技术与市场的有效对接。
结语
随着 AI 技术飞速发展,AIGC 正从概念走向广泛的应用实践,为各行各业带来前所未有的创新变革。在本次「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」,五位技术大咖从多角度分享前沿、多元的 AIGC 亲身实践,为开发者带来诸多启发。在各位嘉宾的精彩分享下,本次活动圆满落幕。
未来,腾讯云 TVP 将继续携手更多专家大咖,为开发者朋友分享更多干货技术和前沿洞察、落地实践,献上一场场精彩有料、有趣、有用的技术盛宴。