从模型底座到应用生态,百度AI战略走向纵深(建筑模型底座)
在当今这个数字化时代中,人工智能技术正在以一个十分惊人的速度改变着我们的生产生活与思维方式。
而在大模型正式“出圈”一年来的时间里,如此趋势更是像潮水一般快速进入了我们生活中的每一个角落,同时,伴随着人工智能的革命,对于哪些众多长期耕耘于AI领域的巨头企业来说,也出现了重新站在了潮头之上、引领时代发展的最好契机。
11月21日,拥有强大互联网基础的领先人工智能公司百度发布其三季报,财报显示,三季度营收达344.47亿元,归属于百度的净利润(non-GAAP)达73亿元,同比增长23%,营收、利润均超市场预期。
而在财报数据之外,最大的亮点无疑仍在大模型一端,作为全球最先发布大模型的互联网大厂,也是用大模型重构自身业务最激进的公司,百度已经依托其在大模型底座层面上领先且扎实的基础,先人一步进入了应用端的重构时代,并提出了构建生态底座的理念。
百度创始人、董事长兼首席执行官李彦宏也表示,“在生成式AI和基础模型的新兴机遇背景下,百度不断强化技术、改进产品,特别是推出了文心大模型4.0,这是百度最强大的基础模型。我们还利用文心大模型和文心一言的能力,重构了消费级、企业级产品及自身运营,在带来AI原生体验的同时,不断提升效率。”
那么,百度通用大模型能力底色究竟如何?在应用端的重构上百度推进到了哪一步?百度为什么要构建、又怎样构建属于人工智能开发者们的“百度生态”呢?
1
文心大模型
如何成为企业落地首选?
作为“大数据+大算力+强算法”结合的产物,大模型底座是每个企业开发AI原生应用、跨入AI时代的基础,不同体量的企业,对大模型能力的要求也有着巨大的差异。
对于超大型企业来说,它们往往有着员工众多、组织架构复杂、打法风格明显的特点,所以自建大模型自然是最好的选择,但放在整个社会之中,像这样的超大型企业无论从业务量还是大模型能力需求来说都只是极少数。
而在跨领域的超大型企业之外,那些专注于某个行业的中型企业则往往面临着AI应用不够用,基础大模型“用不完”的难题,此时利用已经开发、调教完成的基础模型作为底座,进而开发独有的行业大模型,往往是这些企业最优的选择。
至于数量最多的中小企业,他们只需在已经开发好的基础大模型与行业大模型的基础上开发相关AI原生应用,甚至直接使用已有的应用,便可以满足中小企业的全部需求。
可以说,除了超大型企业有可能会选择自建基础大模型之外,其他中小企业的行业大模型、AI应用都需要借助第三方厂商大模型的能力,这也是基础大模型为何如此重要的原因。
而在国内涌出的诸多通用大模型当中,百度文心大模型无疑就是那个让竞争对手们难以望其项背的佼佼者。
从底层设施来看,在文心大模型1.0发布迭代至今的5年间,百度在IT技术的技术栈也跟随人工智能的进步,发生了根本性的变化——从过去“芯片—操作系统—应用”三层架构,重建成为了“芯片-框架-模型-应用”四层架构,并在每一层之间的严格要求下,完成端到端的优化,为深度学习与大模型的发展打下了坚实的基础,成为大模型能力落地产业化最基础的智能底座。
而百度也是目前全球为数不多的在这四层均进行全栈布局的人工智能公司,无论是高端芯片昆仑芯,飞桨深度学习框架,还是文心预训练大模型,各个层面都有领先业界的自研技术,共同帮助大模型不断调优迭代,进而升级用户体验。
除去底层设施的完备与先进之外,就大模型训练所需的数据与算力来讲,最新的文心大模型4.0也是目前国内最强大的通用大模型。
据报道,文心4.0版本的参数或已突破万亿级别,是目前公开发布参数最大的大语言模型,要完成如此多数据的并行处理,则需要万卡规模的GPU集群才能完成训练,而文心4.0也是首个将万卡集训真正用于训练之中的大模型。
也正是在多年研发与不菲投入的共同努力之下,目前文心大模型在理解、生成、逻辑和记忆能力上都有着显著提升,综合水平与GPT-4相比毫不逊色。在能力大幅增强的同时,外部调用量也快速攀升,在近日的西丽湖论坛上,百度创始人李彦宏表示,文心大模型的API调用量在4.0版本发布后呈现出了指数级的增长态势,目前已超过国内其他两百余家大模型调用量之和。
可以这么说,依托于百度十年如一日在人工智能领域的投入,目前文心大模型已经拥有了明显优于其他厂商大模型的性能和表现,成为了大小企业在AI落地时的首选。
2
模型底座不是全部,百度应用加速落地
通用大模型的能力无疑是至关重要的,但其作为落地生产力过程中的一环,单单有强大的大模型底座和生产力的提升之间还有很长一段距离。
今年以来,国内的通用大模型可谓是层出不穷,甚至出现了“百模大战”的混乱场景,但是,真正“武装”到应用、切实为人们的生产生活带来价值的却寥寥无几,可以说,当前大模型距离落实到生产生活场景并产生价值仍然有着很远的距离,而其中最大的问题便是应用层面的缺失。
而应用缺失的问题,也早已被百度所察觉。近日,李彦宏在西丽湖论坛上对AI应用进行了犀利的评论,“人类进入AI时代的标志,是出现大量的AI原生应用,而不是出现大量的大模型”,“我们需要的是100万量级的AI原生应用,而不是100个所谓的大模型。”
也正是通用大模型层面的“百花齐放”与AI原生应用的无比匮乏,共同决定了应用市场即将迎来一场彻底的大变革。
作为国内实力最强大的、对行业理解最深的AI企业,百度早已投入了AI原生应用开发赛道中,就像李彦宏在上半年演讲中提到的一样,“百度要把所有产品用AI重做一遍”,可以说,在其他企业还在发力大模型研发时,百度早已经进入了下一层级,并已经将“旧世代”的应用完成了AI化重构,并做出了一系列AI时代新应用。
在对已有应用的重构之上,搜索作为百度的主阵地,自然是AI能力最先触及的地方,各项生成式AI功能对应用能力重构提供的改变,也在百度搜索上体现得淋漓尽致。
作为外界知识的窗口,AI重构后的搜索最大的进步便是更加精准更加智能了,具备极致满足、推荐激发和多轮交互三个特点。“极致满足”是当用户搜索问题时,新搜索“不再是给你一堆链接”,而是通过对内容的理解,生成文字、图片、动态图表的多模态答案,让用户一步获取答案;“推荐激发”可以实时推荐用户可能关⼼的问题;在针对复杂需求时,“多轮交互”特点也可以通过提示、调整等方式,满足用户更个性化的搜索需求。
在搜索主业之外,百度文库则是整个集团重构最彻底的产品。目前,百度文库可以在1分钟内生成一个20几页的PPT,包括图表生成,格式美化等,而且几乎是零成本。新文库也实现了从内容工具到生产力工具的转变。因为有了这样的原生化改造,文库的付费率有了明显的提升。截至目前,百度文库AI新功能累计用户突破3000万,累计功能使用次数破2亿。
而在重构过往的应用外,在进入AI时代后,百度也推出了更多可以直接利用大模型能力提高生产工作效率的应用产品。
其中,百度Comate是百度智能云基于文心大模型打造的新一代智能编程工具,因为代码生成相比于自然语言生成而言,是一件更有规律与规范可以遵循的内容,所以AI在编码中的能力往往强于自然语言处理上的能力。
目前,百度Comate可支持代码解释、技术问答、实时续写、生成单元测试、代码优化与修复、智能CLI等10余项编码功能,实现编程10倍速提效。从准确率来看,在内部应用中,整体的代码采纳率达到40%,高频用户的代码采纳率达到60%。在百度内部,当前Comate自动生成的代码占每天代码量的20%,数据还在增加。
而在强于编程语言外,基于文心大模型推出的如流在总结自然语言方面也不落下风。
作为百度旗下新一代智能工作平台,如流旨在构建AI时代工作流水线,助力企业实现提效创新,赋能企业在智能经济时代打造核心竞争力。重构后的新如流,可以“一秒跨群总结1000条群信息”,运用如流超级助理还可以实现“ 一键差旅及谈参生成“,用自然语言交互方式重构了办公领域。
如流超级助理还具备AI会议洞察功能,以及AI会议纪要功能。其中AI会议洞察可以通过会中的AI洞察实现不同议题的要点提炼,AI会议纪要功能则能够快速生成结构化、可视化的会议结果。实现让“智能工作”代替“勤奋工作”。
而在这些应用之外,百度重构、推出的AI原生应用还有很多。在其他企业还在纠结大模型底座如何研发、微调的时候,百度已经快人一步,将AI能力投送至每一个人身边,正是因此,百度有望率先占领用户心智,跑通商业逻辑,也成为了最有机会在AI原生时代做出超级应用的公司。
3
不止应用
百度生态旨在与中国AI共同成长
百度在应用层面的重构与创新,无疑取得了巨大的成功,但在真正的生产场景之中大模型落地的需求实在是过于海量,不是由一个甚至几个巨头企业就能完成的,而是需要各行各业深入业务场景中的每一位开发者共同参与、推动。
不过,开发一个新应用谈何容易?想要做出一个AI应用,往往需要大模型能力基座能力支持、足够的高质量数据资产用于训练、高效率的场景调用分发与独特的创新性。
但不幸的是,各行各业不同场景中的中小开发者们,往往只拥有他们独有的思维方式与丰富的业务经验,而在其他能力方面却显得十分“窘迫”。
这,就对开发者生态提出了要求——即一定要有一家底层技术过硬、懂得开发者痛点的企业愿意俯身充当AI应用的土壤,提供全套的平台服务与AI原生思维的方法,助力行业完成进化。
而作为最先重构、推出AI原生应用,且有着海量产业落地经验的百度来说,无疑是最适合承担这样角色的企业。也正如李彦宏所讲的一般,“拥抱AI时代,需要一把手来驱动”,百度便正在努力做那“一把手”,建设一个属于百度与众多开发者的生态花园。
在面对庞杂的企业需求时,百度推出了“大模型超级工厂”——智能云千帆服务平台,该平台将众多能力开放给了企业端,为外部开发者提供了模型再训练的全套工具链,支持多种形式模型调优,包括SFT及强化学习等,旨在帮助企业和开发者快速基于文心大模型再训练,开发出属于自己企业的最优解。
截至目前,千帆大模型平台内已经预置了百余款Prompt模板,包含对话、编程、电商、医疗、游戏、翻译、演讲等十余个场景。这些模版均可直接输出给大模型,让大模型快速理解企业的需求,大大提高模型的交互效率、输出质量。
同时,百度智能云也在持续接入更多的大模型,开发者可以通过千帆大模型使用数十个经过严格优选、进行性能与安全双重增强后的第三方大模型,未来优秀的大模型也将接入千帆平台当中。
可以说,有大模型应用需求的企业都可以通过百度智能云的千帆大模型调用能力,选择最适合自身业务场景的大模型,还可在其之上完成微调,使其更加贴合真实生产过程。而百度云也有望凭借旺盛的大模型需求,成为云的game changer,完成弯道超车。
而在企业级别的大模型应用之外,百度也没有“放过”那些轻量化的开发者们。
对个人或小型团队开发者来说,即使是在大模型的加持之下,开发AI原生应用还是门槛过高、流程过长,他们亟需一个更加简易的开发方式与落地生态。于是,在开发者们的需求之下,百度灵境矩阵插件平台便应运而生。
灵境矩阵作为百度推出的面向各类开发者的文心插件开发平台,支持广大开发者根据自身行业领域和应用场景,选取不同类型的开发方式、模板组件等进行接入,旨在打造更加场景化、行业化、定制化,更能满足用户需求的AI插件。
开发者们可以利用灵境矩阵平台提供的便捷可视化编排能力、超百套丰富的开发组件和全网海量行业数据,结合自身的创意,推出全新插件,并可以依靠插件带来的流量与收入,不断完善核心流量场景的分配机制及运营体系,形成插件的有效调用和分发,开发者用户、数据、能力沉淀在应用开发平台和插件平台。
而百度也能在插件源源不断涌现的过程中打造生态,吸引更多外部用户进入生态中共同发展,将每一位开发者伙伴紧紧地联系在百度周围,共同铸造一个创意无边界的开放生态。
从结果来看,百度的这一步棋显然十分成功。上线一个月灵境矩阵就已经收到2.7万个开发者的注册申请,覆盖了20多个垂直领域。这里面既包含中信出版社、中国司法研究院、携程等合作伙伴。其中,个人开发者占比超过30%。
从云千帆智能平台与灵境矩阵平台的功能与指向之中,我们不难看出百度的想法——如果没有办法为所有企业提供直接的帮助,那就将工具开放给所有人,百度则俯身下去充当AI生态的土壤,通过构建一个AI生态的方法吸引所有人与百度“缔结契约”,构建AI时代中全新的发展联盟。
4
写在最后
通用大模型层面的睥睨群雄,AI原生应用领域的快人一步,构建长期生态时的“所谋甚远”,都是百度深耕AI赛道十年以来的心得。
至此,百度的人工智能战略已经完全拉开序幕,但无论从哪个层面来看,都称得上是“遥遥领先”,也正是因此,文心大模型或将成为中国人工智能新时代发展中最重要的底座,相关应用也会在百度的生态中快速成长。
而在这个过程中,众多使用百度平台、应用的企业和用户也会在不知不觉之间与百度生态加速融合,共同生长,共同繁荣。