大模型技术本质上来源于科研创新与技术积累
海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些 技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。
国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一 定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。
国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景, 如月之暗面的杨植麟团队和清华的智谱团队。
基于开源大模型框架进行优化调整、应用创新较易落地
OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注 意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以 百川智能为例:
基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方 面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。
大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓 展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。
高质量训练数据促进大模型技术的提升,但优质数据集稀缺
有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质 的数据集可能就只有300-500B token,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多 数据其实是无效的。
大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据Scaling Law,Transformer架构的语言模型性能在很大程度上取决于 模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或 宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要 性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学 的问题还需要找逻辑、数学数据集去优化。
AI技术将更大范围的数据带入分析领域,关注稀缺内容平台
AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把 原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非 结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和 ML/AI Ops 领域(Databricks、AWS Bedrock、 Weights&Biases)。
内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。 随着内容创作者转向音视频平台,这些平台成为了聚集 高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。
大模型的竞争格局猜想—C端集中,B端差异化竞争
C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AIAgent满足用户的高度定制化 和长尾需求。从大模型的迭代发展,我们看到底层技术基于Transformer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧 流量入口的集成和统一。
B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、 模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在 Huggingface上用开源模型改造。
OpenAI商业模式:大模型技术领先,积极尝试构建生态壁垒
通过先进的闭源实现商业化,通过开源前代模型构建生态:OpenAI的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而 OpenAI凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、 服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。
通过AIAgent的形态去构建流量入口:OpenAI在AI Agent与流量入口领域有许多尝试,比如插件生态、GPTs。GPTs出现打破过去的软件孤 岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AI Agent必须要对个人有全链路的信息处理能力, 当前GPTs实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪 费。
AIAgent:成为生产环节的定制化辅助,带来人机交互的革新
AIAgent框架为大模型提供结构化思考方法,成为生产环节的重要辅助:大模型作为理解推理能力不断增强,软件生产进入低门槛、 高定制化时代,面向用户的长尾、个性化需求,Agent框架可以打造每个知识工作者的AI助理。
AIAgent需要标准定义和模型能力进化,同时GenerativeUI可能带来人机交互方式的革新:当前大模型对连续的复杂推理问题包括对 多模态信息的交叉处理仍有不足,需要用更复杂、结构化、多维度的数据来进一步学习。另一方面,Agent应用对当前的人机交互方式 带来改变,演进成为同时适用于人类和AI操作的形式。
案例:Agent以类人的方式与智能手机应用进行交互,使用点击和滑动等底层操作来操作图形用户界面(GUI)。利用大型语言模型的视 觉能力以类似人类的方式操作智能手机应用程序。在探索阶段,智能体与智能手机应用程序交互并从结果中学习,以创建一个全面的参 考文档。在部署阶段,智能体利用这个文档汇编的信息来有效操作和导航应用程序。
智能硬件“AllinOne”终端流量入口的抢占之路
AIGC将带来无限的内容生产与供给,进而颠覆当前的信息分发方式:a16z曾说过“芯片将计算的边际成本降到了零,互联网将分发的 边际成本降到了零,现在AIGC实际上将创作的边际成本降到零”。每个人都有机会获得无限的娱乐内容供给,互联网常见的信息分发 方式未来可能都面临重组。人会从主动生产和管理信息,进化到与AI共同生产以及与AI辅助管控共存。
智能终端充当人类和AI认知世界的延伸,依托大模型同时满足生产力、社交娱乐等全面需求。相比软件产品智能硬件终端更容易演化 到all in one的形态,从而抢占终端的流量入口。从苹果生态来看,智能终端的壁垒同时取决于生态业务场景的广度和深度,而AI大模 型的技术同时带来两个维度的革新。
月之暗面:清华系新星杨植麟领衔,团队核心人员多为清华同门
月之暗面(Moonshot AI)创始人杨植麟自2020年起便坚信“大模型是未来”,2020年下半年为华为的盘古大模型做核心技术研发, 2021年参与智源研究院的悟道大模型研发。2022年底杨植麟前往美国进行为期2个月的考察,美国民众对于GPT的狂热让他更坚信此时正 是成立大模型公司的合适时机,于是他在接下来的1个月内完成首轮融资,拿到来自红杉等头部机构6000万美元的启动资金,并于3个月 内组建起了大约40人的技术研发团队。
MoonshotAI于2023年3月成立,成立前其团队主要通过与其他公司合作,以团队提供技术、合作方提供算力的形式来完成大模型相 关工作。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。
2023年首次发布大模型产品KimiChat,长文本能力为核心能力
基于千亿大模型的智能助手KimiChat,核心能力为长文本能力(LongContext):2023年10月9日,Moonshot AI推出首款产品,拥 有长达20万汉字的上下文处理能力,据Moonshot AI官方,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输 入长度。此外,Kimi Chat还可处理多种文档格式(如PDF、Excel等),具备较强的多语言能力,以及调用搜索引擎获取信息,旨在为用 户提供强大、智能的对话伙伴,并为其工作、学习、生活提供助力。
模型版本经历两次更新,在多个场景下持续优化模型效果
Kimi Chat更新历程:
2023年11月15日,Kimi ChatV1.1 面向全社会开放版本,模型版本更新至moonshot-v1-20231115,主要更新内容包括(1)大幅解决 模型在复杂场景下输出重复的问题;(2)关闭页面不再导致模型回复停止,同一对话下,各终端同步输出内容;
2023年12月25日,Kimi Chat模型版本更新至moonshot-v1-20231225,主要更新包括(1)内容生成长度提升(2)优化首字回复速度 (3)实现从扫描件(文档、合同、白板等)提取文字的功能,目前已支持扫描文件以PDF格式上传解析(4)微信小程序端上线“Kimi智 能助手”
智谱:清华KEG孵化而来,团队核心成员多有清华背景
智谱AI由清华大学计算机系教授唐杰领衔的清华KEG(知识工程实验室)孵化而来,其团队核心成员多有清华系背景。
2019年成立以来,智谱AI始终坚持投身大模型技术研发,愿景是“未来让机器像人一样思考”,并希望能对标OpenAI;
2020年6月,GPT-3发布,智谱AI意识到GPT模型已实现越级提升;
2022年8月,智谱AI推出自研大模型GLM-130B,结合了GPT的单向向后预测模型框架与BERT的双向预测的模型框架;公司专注于ToB 和ToG服务,客户主要是企业和政府机构。
2023年,智谱AI获融资25亿,估值超百亿人民币。
目前智谱的合作案例包括:1)G端,跟北京政府合作提供智能客服能产品;跟北京中医院合作中医药在线问诊模型构建等;2)B端, 跟中石油合作ERP改造企业工作流;跟美团合作对话、广告、搜索等功能;3)C端,提供ChatGLM通用大模型入口。
模型迭代历程:创新动力充足,多个模型持续迭代GLM:
- 2021.9 设计GLM算法,发布拥有自主知识产权的开源百亿大模型GLM-10B;
- 2022.8 发布高精度千亿大模型GLM-130B并开源,效果对标GPT-3 175B,收到70余个国家、1000余个研究机构的使用需求;
- 2022.10 发布开源的100+语言预训练模型mGLM-1B ChatGLM:
- 2023.3发布千亿基座的对话模型ChatGLM及其单卡开源版本ChatGLM-6B,全球下载量超过800万;为实现从GLM到ChatGLM的迭代,智 谱AI加入了代码训练、进行SFT(SupervisedFineTuning,有监督微调)、加入RLHF(ReinforcementLearningwithHumanFeedback,基于人类反馈的强化学习);
- 2023.6发布全面升级的ChatGLM2模型矩阵,据GitHub,主要更新包括(1)升级基座模型以提升模型在MMLU(+23%)、CEval (+33%)、GSM8K(+571%) 、BBH(+60%)等数据集的性能表现(2)上下文长度从2k扩展至32k(3)推理速度提升42%;
- 2023.8 搭载ChatGLM2模型的AI生成式助手“智谱清言”上线;
- 2023.10 发布全面升级的ChatGLM3模型及相关系列产品,主要更新包括(1)升级基座模型以提升模型在MMLU(+36%)、CEval (+33%)、GSM8K(+179%) 、BBH(+126%)等数据集的性能表现(2)在多模态理解、代码增强、网络搜索等功能上进行迭代更新(3) 集成自研AgentTuning技术,激活模型智能体能力(4)推出可手机部署的端测模型,支持包括Vivo、小米、三星在内的多种手机以及车 载平台(5)推理速度提升2-3倍,以上更新同样作用于智谱清言;CodeGeeX:
- 2022.9 发布代码生成模型CodeGeeX;
- 2023.7 发布新一代代码生成模型CodeGeeX2,主要更新包括(1)代码能力大幅提升,据GitHub,六种编程语言能力均大幅提升 (Python +57%, C++ +71%, Java +54%, JavaScript +83%, Go +56%, Rust +321%);(2)支持编程语言数量大幅提升,达到100余种
大模型产品涵盖AI开放平台、智谱清言及一系列AIGC产品
智谱AI合作研发大模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B,并推出AI提效助手智谱清言 (ChatGLM)。AIGC模型及其产品矩阵包括高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等;建立大模型MaaS 开放平台,致力于AI生态建设。
百川智能:前搜狗CEO王小川带领,团队核心成员多为知名科技公司AI顶尖人才
百川智能由前搜狗公司CEO王小川联合前搜狗公司COO茹立云于2023年4月10日创立,团队核心成员多为来自搜狗、百度、华为、微软、 字节、腾讯等知名科技公司的AI顶尖人才,截至2023年10月,团队规模170余人,其中硕士及以上学历员工占比近70%,研发人员占比超 80%。融资方面,启动资金5000万美元来自创始人王小川及其业内好友个人支持,2023年10月完成A1轮战略融资,获阿里、腾讯等科技巨 头及顶级投资机构的3亿美元融资金额,创下国内大模型初创企业最快晋升独角兽的记录。
目前已有超过200家企业申请百川大模型开源和商业授权,并已将百川模型投入实际生产场景。企业涵盖互联网、软件和信息技术、 金融、法律、教育、制造业、企业服务等众多领域,客户包括阿里云、腾讯、火山引擎、京东科技、顺丰科技、浪潮、中国农业银行、 蔚来汽车等。
成立8个月内发布8款自研大模型,速度与性能俱佳 模型研发方面,自成立以来,百川智能先后发布Baichuan-7B/13B,Baichuan2-7B/13B四款开源模型和Baichuan-53B、Baichuan2-53B、 Baichuan2-192K、Baichuan2-Turbo四款闭源模型,并与国家级科研机构鹏城实验室共同发布基于国产算力训练的最长上下文窗口大模型“鹏城-百川·脑海33B”。
腾讯-基础大模型:混元大模型
混元大模型是腾讯自研的通用大语言模型。具有超千亿的参数规模、超2万亿tokens的预训练语料。9月,腾讯混元大模型正式通过腾讯云 对外开放。用户可以直接调用API接口,或者将腾讯混元作为基底模型,在公有云上进行精调。
10月,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能。根据公司介绍,升级后的腾讯混元中文效果整体超过GPT 3.5,代码能力大幅提升20%,达到业界领先水平。
11月世界互联网大会乌镇峰会,腾讯集团副总裁蒋杰还展示了腾讯混元大模型的“文生视频”能力。
混元助手是基于腾讯混元大模型的多模态对话Bot产品。随着9月腾讯混元大模型首批通过备案,混元助手以微信小程序的形式陆续面向公 众开放。在场景的AI聊天页面之外,还在“灵感发现”页面提供了多个场景化的应用。除文生文外,混元助手已经支持文生图功能,尚不 支持文生视频和读图功能。
腾讯-MaaS:腾讯云TI平台,打造行业大模型精选商店
MaaS云服务:腾讯于今年6月首次公布腾讯云行业大模型方案,依托腾讯云TI平台,打造行业大模型精选商店,为客户提供MaaS (Model-as-a-Service)一站式服务。
中国银联:在单据识别录入场景,腾讯云TI-OCR训练平台整合OCR大模型,支持银联快速自定义证件、票据、文本识别,实现业务 流程自动化,提升效率并节约成本。
上海仁济医院:运用腾讯云医疗行业大模型,以互联网医院适老化服务为重点,打造了高度拟人化的虚拟数字形象“小威护士”, 有效提升患者就医体验。
8月起,腾讯云TI平台全面接入Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多个主流模型。
腾讯-AI基建:自研紫霄芯片+HCC算力集群+向量数据库
腾讯自研芯片已经量产,包括用于AI推理的紫霄芯片:采用自研存算架构和自研加速模块,可以提供高达3倍的计算加速性能和超过45% 的整体成本节省。目前在腾讯会议实时字幕上已实现全量上线,单卡紫霄机器负载可达到T4的4倍,并将超时率从0.005%降低至0。
腾讯云在4月发布新一代HCC高性能计算集群:采用最新一代星星海自研服务器,搭载NVIDIA H800 Tensor Core GPU,性能较前代提升3 倍。通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。
腾讯云在7月发布AI原生的向量数据库:之后经过多次迭代升级,在优化版的IVF索引支持下,从最初支持的十亿向量规模到现在的千亿 规模和500万QPS峰值能力。目前,腾讯云向量数据库已经在内部服务于腾讯视频、QQ浏览器、QQ音乐等40多个业务,日请求量达1600亿 次,服务了包括博世、销售易、搜狐、好未来、链家等在内的超过1000家外部客户。
腾讯-SaaS产品:AI提供了生成式新功能和潜在销售机会
根据“腾讯混元”官方公众号的10月推文,超过180个腾讯内部业务已接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告 和微信搜一搜等。我们认为,SaaS产品在接入混元大模型后,不仅带来了更丰富的AI功能,也提供了新的销售机会,有望带动SaaS产 品用户数和客单价的提升。
腾讯会议:AI小助手,已经上线部分功能。提供会前日程协调、会中问答、会后智能纪要、会议待办项等新功能。其中,“智能录制 不限次(包括智能纪要)”已经加入付费版本专属权益,有望带动腾讯会议付费率的提升。
腾讯文档:智能助手。支持数十种文本创作场景,提供文档创作、文本润色、文本校阅、表格公式及图表生成等能力,提高创作效率, 提升创作体验。目前智能助手已经率先嵌入智能文档中,需要申请后参与试用;未来还将嵌入智能表格、PPT、思维导图等文档类型。参照Notion AI,智能助手有望带动腾讯文档付费率和客单价的提升。
此外,腾讯企点、企业微信、AI代码助手等SaaS产品同样在AI加持下增添了更多新功能,提升了潜在销售机会。
腾讯-广告平台:AI一方面增强广告定向和归因,另一方面通过AIGC 提升广告创作效率和效果
增强广告定向和归因的准确性:2022年6月,腾讯广告对外公布了借助大模型降本增效的进展:首先以混元AI大模型助力系统 深刻理解广告内容,其次以精排大模型提升广告和用户的匹配准确率。腾讯连续4个季度在业绩公告中提及机器学习平台升级 和广告AI模型。
AI智能化创作广告素材:腾讯广告以腾讯混元大模型为基础,结合广告应用场景,实现含文生图及文生视频在内的多种智能 化广告素材创作能力,满足千人千面。目前,腾讯广告“AI创意工作台”已覆盖电商、文旅、阅读资讯、游戏等多个行业场景, 针对阅读行业还在持续打磨古言、都市、玄幻等小说人物形象模型,已从9月份开始陆续为广告主提供“素材创作”、“二次 编辑&一键投放”、“商品生成”等核心能力。
腾讯-微信Agent:以微信为入口的Agents具备很强的想象空间
腾讯Q3业绩会议上提及过“智能代理”(smart agent)的概念,目前还非常早期,但想象空间很大。
AI Agents,是一种能够自主感知环境、进行规划和决策、使用外部工具的人工智能体。相比于Copilot,AI Agents具备更强的自主 性,在复杂任务中参与度更深。目前完全意义上的Agents尚不成熟,市面上工具更多是Copilot。
假设后期技术能够实现AI Agents,以微信为入口的Agents具备很强的想象空间:1. 微信+小程序 提供流量入口和基础设施,有机会 将微信的流量进一步货币化;2.增强微信的基础性APP地位;3.派生更多新的商业模式。
百度-基础大模型:文心大模型4.0
文心大模型4.0具备强大的理解、生成、逻辑和记忆的能力。根据百度官方公众号,文心一言于8月31日向全社会开放,至今已有超 7000万用户。10月17日,在百度世界2023大会上,文心大模型4.0版本正式发布。文心4.0实现了基础模型的全面升级,在理解、生成、 逻辑和记忆能力上都有着显著提升,其中逻辑的提升幅度达到理解的近3倍,记忆的提升幅度也达到了理解的2倍多。根据三季度业绩 会议,与3月的文心一言相比,当前版本的推理成本降低了98%,同等算力条件下QPS提升了50倍。
百度-核心广告:预计在四季度贡献数亿增量收入
核心广告:文心大模型重构广告系统,预计在四季度贡献数亿增量收入。
1)9月7日,百度营销发布全球首个AI Native营销平台“轻舸”。根据业绩会议,百度通过文心大模型重构广告系统,提升广告素材 创作效率和定向能力,“轻舸”可以自然语言和表达、高效推送、随时调度AI能力,大大提升投放效率,便利用户投放。至今已有数 千名广告客户采用新广告系统,采用这些新功能的广告客户在三季度实现了平均高个位数的转化率提升。在四季度,AI相关举措有望 为百度广告贡献数亿增量收入。
2)公司正在测试采用新的对话形式替代原有的落地页,不仅有望提升广告转化率,还将使公司有机会从CPC模式向CPS模式转变。
百度-智能云:贡献API调用收入、大模型解决方案收入
智能云:伴随着文心大模型4.0的发布,公司相信客户对AI大模型的需求有望打开云业务新的增长空间。根据业绩会议,目前来自生 成式AI和LLM的收入还比较少,但增速快。大模型的2B收入贡献分为几个层面:1)API调用收入:文心4.0已开放面向企业客户的API, 目前文心大模型API的调用量呈指数级增长。2)大模型解决方案收入:百度具备完善的芯片、框架、模型、应用四层技术栈,支持企 业客户基于文心大模型构建企业级大模型和行业应用,也支持企业客户基于文心千帆平台训练自己的大模型,无论客户选择何种方式, 都将为百度带来新的创收机会。
目前大模型可应用于电商、短视频、教育、游戏、医疗、金融等六大行业:1)电商行业:通过使用大模型,可以帮助电商平台提升 用户体验、增加销售额同时大大降低运营成本;2)短视频行业:可以实现内容创作文本的输出,提高短视频内容创作者的效率;3) 教育行业:可以帮助提升教育教学效果、个性化教育水平、辅助教育决策能力;4)游戏行业:在研发端,可以提升游戏设计、游戏 代码开发的工作效率;在体验端,可以辅助开发者提供游戏优化方案,提升游戏体验;5)医疗行业:为医生提供更加准确和全面的 诊断和治疗建议,以及帮助医生进行疾病检测和预测;6)金融行业:帮助银行和金融机构进行风险评估、市场预测和欺诈检测等任 务。
百度-AI重构旗下应用,如百度文库、地图、网盘等
运用文心大模型的能力重构旗下应用,为用户带来全新AI原生体验。百度目前已经基于文心大模型重构了百度文库、地图、网盘、 如流等原有应用,也推出了新的AI原生应用百度GBI和Comate代码助手。重构后的AI原生应用,在用户量、活跃度等数据指标方面实 现显著增长。例如,百度文库AI新功能累计使用用户达3000万,付费率明显提升;百度网盘个人助理“云一朵”用户累计突破2000万。
各应用AI功能:“云一朵”可以帮助用户答疑解惑、总结文档和视频、提供创作灵感;AI向导可以提供预估行程、沿途规划、安排聚 会地点等服务;百度文库AI助理可以进行内容总结、创作、PPT编辑等。
阿里—AI组织架构:云智能团队主导,全链条布局AI
阿里云战略为“AI驱动,公共云优先”,达摩院和基础设施事业部负责AI底层基础设施及芯片研发;集团层面,阿里巴巴成立了基础 设施委员会,由CEO吴泳铭直接统筹负责,协调全集团底层技术基础设施的规划与建设,助力AI更好地在集团其他业务落地应用。
根据IDC统计,2022年中国AI公有云服务市场还是呈现出80.6%的正增长,整体市场规模达79.7亿元人民币。2022年中国AI公有云服务 市场份额,百度智能云占比28.9%,阿里云占比27.4%,华为云占比18.7%,腾讯云占比18.7%,其他云厂商占比6.4%。
阿里—AI基础设施:自研AI芯片+通义大模型,支持外部AI
芯片:平头哥半导体(2018年9月成立),目前已有镇岳、含光、倚天、羽阵等多款芯片产品,其中含光为AI芯片,均已在阿里云、 淘宝电商等场景投入应用。
通义大模型:包括统一底座“M6-OFA”,三大通用模型“通义-M6”“通义-AliceMind”“通义-视觉大模型”,以及行业层面的不同 垂直领域专业模型。
AI应用情况:自2023年4月通义大模型重磅发布以来,阿里集团董事会主席蔡崇信再2023云栖大会表示,全国80%的科技企业和超过一 半的AI大模型公司跑在阿里云上;据公司管理层在FY24Q2业绩会议披露,AI在公有云收入占比达到2%。
阿里C端应用—淘宝问问:三大基本模式支撑四大应用场景
淘宝问问是淘宝App推出的ToCAI应用,可以根据用户输入信息,通过深度合成算法解答用户问题,提供内容建议及相关商品 推荐,目前淘宝问问仅向C端使用者开放,底层模型为通义千问。
自9月上线测试版以来,累计使用人次超500万;淘宝问问处理的需求中25%是非购物类场景需求,未来有望开拓购物之外的 更多使用场景,向泛生活消费类平台转型;
未来有望以接口方式向B端商家开放,助力其将品牌内容、商品优势更高效传达给消费者,同时了解消费者更长尾的购物需 求。
阿里B端应用—企业沟通软件:钉钉全面走向智能化,已开启商业化
钉钉开放智能化底座AI PaaS给企业客户,AI PaaS包含模型调度平台、模型训练平台和插件开发平台三个部分,降低企业开发运维的 门槛,帮助企业数据与大模型建立联系。目前钉钉软件的订阅服务客户已经超过了10万家,付费DAU达到2300万。
AI商业化情况:钉钉专业版年费9800元基础上,增加10000元即可获得20万次大模型调用额度;在专属钉钉年费基础上,增加20000元 即可获得45万次大模型调用额度,相当于一次调用平均只需不到5分钱。
与钉钉对比,飞书智能伙伴是开放的AI服务框架,没有固定的底层模型,更初阶更灵活,支持内容创作、内容总结、数据分析、场景 构建等功能,目前开放试用,尚未商业化。
阿里B端应用:万相台无界版&阿里妈妈百灵,多种营销场景智能化
万相台无界版和阿里妈妈百灵是阿里妈妈推出的两大ToB一站式智能营销投放产品,其中万相台无界版以GMV为导向,侧重站内投放;阿里妈妈百灵整合站内外媒体资源,侧重品牌营销。二者依托阿里妈妈专属AI大模型,将消费者触达、营销推广等多种经营场景智能化, 助力商家降本增效。
具体案例:日系洗护类品牌Claynal就转变了以品类词为核心的投放方式,利用万相台无界版7大场景能力找到了全新爆款群,收藏 加购成本降低了12%,ROI提升了近24%
据阿里2023年9月季度财报,淘天广告收入增速快于GMV增速,主要由于万相台无界和阿里妈妈百灵提升商家投放效率与投放意愿。
阿里AIGC应用—妙鸭相机:AI在影视行业的应用探索的小荷尖
妙鸭相机是一款基于AI技术的写真生成工具,由阿里大文娱的张月光带队开发。2023年6月,妙鸭相机内测;7月中旬小程序正式上 线;7月底妙鸭相机APP上线;上线即爆火,高峰期有4000-5000人排队,需等待十几个小时才能出片,后因用户等待时长过长、数据收 集条款侵犯用户隐私等争议热度很快下降。
AI商业化情况:上线伊始,用户需支付9.9元并上传20张照片即可生成数字分身并开始生成AI写真;9月,妙鸭相机宣布推出免费版 本,与仍为9.9元的专家模式相比,免费版本等待生成时间较长且模板使用受限。专家模式下会赠送用户10颗钻石,后续如需体验更多 模板或下载高清原图需付费购买更多钻石。
在妙鸭相机之外,阿里大文娱已经在多个影视工业化垂直赛道进行AI布局。近期阿里大文娱团队通过自研大模型生成了超写实数字 人厘里,通过真人替身加后期光场制作的方式呈现在剧集《异人之下》之中。传统特效技术通常需要至少一个月才能完成,使用数字人 参演叠加后期制作只需要一周,对于影视行业带来直接的降本增效。
字节AI—产品与发展时间线:新AI部门Flow同时发力技术与产品
字节产品线与AI功能一览
字节AI模型—图像、语音、视频等多模态模型具备优势
AI方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领域。
正在自研原生多模态,目前多模态模型主要是基于开源基础的各个模态子模型:非自回归模型DA-Transformer、端到端语音到文本翻 译模型ConST、多颗粒度的视觉语言模型X-VLM、图片和文本统一生成模型DaVinci等。
多模态模型应用广泛:抖音、今日头条、剪映等产品层面推出过绘画类、特效类、视频剪辑、视频生成等AIGC功能。
火山机器学习平台与自研DPU构筑算力基石
火山引擎:字节跳动旗下的云服务平台, 将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、 视频与内容分发、数智平台VeDI、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
算力:火山引擎在今年4月举办的火山引擎FORCE原动力大会上,正式发布自研DPU等系列云产品,预计明年1-2月流片。并正式推出智能 推荐-高速训练引擎,支持100GB至10TB以上超大模型的高效训练。这个平台支持万卡级的大模型训练和微秒级的延迟网络,其弹性计 算功能可以节省高达70%的算力成本。火山引擎表示,基于自研DPU的GPU实例比上一代的集群性能提升了三倍以上。火山引擎总裁谭待 透露,目前国内大模型领域的数十家企业中,超过七成已经在火山引擎云平台上运行。
平台:火山引擎发布了机器学习平台升级版,在数据管理、资源管理、流程和模型三大领域具备核心优势。
应用:火山引擎的AI场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直 播短视频构建中推动客户业务增长。
全球化基因深厚,同时打造多款出海AI应用
AppChitChop(POLIGON):字节跳动海外最新发布的私人AI助理APP,包括AI创作、AI绘画、娱乐、AI学习、工作、生活等6大使用场 景。每个场景包含10多个人工智能工具,宣称可以为用户提供多达200多个智能机器人服务。平均访问停留时间超过9分钟。
豆包:豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并 进行对话,帮助人们获取信息,支持网页 Web 平台、iOS 以及安卓平台。6 月初,字节就在内测代号为 Grace 的 AI 对话项目,8 月 17 日Grace 更名为豆包。豆包网页流量不断增长,用户停留时间3.5分钟,APP周下载量超20万次。
Cici:布局海外,8月份于海外多个市场上线。Cici 目前已经上线了海外 36 个国家和地区,基本上除了美国和欧洲等成熟市场,几乎 各个区域市场都有覆盖,包括日韩、中东、东南亚、非洲、南美的几乎所有必去出海市场,如沙特、印尼、巴西等等。Cici 主打 “Your Helpful Friend”+ “Free”,网页端用户停留时间接近10分钟,用户粘性较好,在不同区域的流量持续攀升中。
总结:
大模型技术本质上来源于科研创新与技术积累,我国大模型厂商根据自身特点演绎出不同的发展方向。大模型诞生与技术的积累与不断创新, 伴随海外技术进步与大模型开源,我国大模型企业也在不断追赶,包括根据其技术路径自研或在其开源框架上优化调整。
有效数据集有限,优质数据集仍旧稀缺,关注具备高质量内容的平台。大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。AI技术 把原先难以利用的非结构数据带入分析领域,内容创作者所聚集的平台成为高质量数据的重要来源。
大模型后续竞争格局B端与C端分化:C端更易于产生通用底座以及大一统的入口,通过丰富的插件、定制化功能、AI Agent满足用户的高度定制 化和长尾需求。B端定制化模型或垂类模型性价比更高,不同B端行业可能用各自模型来满足企业场景、业务流程、模型大小和性能的差异化需求。
AIAgent框架带来全链路、定制化的信息处理能力,成为生产环节的重要辅助,助力智能硬件“AllinOne”抢占终端流量入口。AIAgent需要 标准定义和模型能力进化,同时Generative UI可能带来人机交互方式的革新。
月之暗面、清华GLM、百川智能:作为独立的第三方模型厂商,创始人技术背景强,模型迭代速度快,产品布局AIGC等各个领域。
互联网大厂腾讯、字节、百度、阿里:结合自身业务场景进行模型和AI应用的开发,同时布局算力、平台、大模型与应用全环节,关注AI生态 建设。
报告出品方:国信证券,本文仅供参考,不代表我们的任何投资建议。[幻影视界]整理分享的资料仅推荐阅读,如需使用请参阅报告原文。