文心一言_百度百科

文心一言

百度发布的知识增强大语言模型
收藏
0有用+1
0
文心一言(英文名:ERNIE Bot)百度全新一代知识增强大语言模型文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息知识灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。
2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。 [2]
2023年8月31日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万个问题。 [3-4]
2023年12月28日,百度首席技术官王海峰在第十届WAVE SUMMIT深度学习开发者大会上宣布文心一言用户规模已突破1亿 [27]
2024年3月消息,百度文心一言4月将进行版本升级,届时也将开放长文本能力,文字范围会在200万-500万。目前,文心一言的文本上限大致在2.8万字。 [32]
2024年4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上表示,文心一言用户数已超2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过19万。 [34]
软件名称
文心一言
上线时间
2023年3月16日
开发商
百度
外文名
ERNIE Bot

发展历程

播报
编辑

早期研发历程

2019年3月16日,百度正式发布知识增强的文心大模型ERNIE 1.0,该模型基于飞桨深度学习平台打造,通过将数据与知识融合,提升了大模型学习效率及学习效果。 [6]
2019年7月31日,百度文心大模型升级到2.0。ERNIE 2.0通过持续学习框架,持续学习大规模语料中的词法、语法、语义等知识,在共计16个中英文任务上取得全球最好效果 [7]
2020年7月9日,文心大模型(ERNIE)荣获世界人工智能大会WAIC最高奖项SAIL奖。 [8]
2021年7月6日,百度官方消息,百度发布文心大模型 3.0(ERNIE 3.0)。ERNIE 3.0首次在千亿级预训练模型中引入大规模知识图谱,ERNIE 3.0刷新54个中文NLP任务基准,并在国际权威的复杂语言理解评测SuperGLUE上, 以超越人类水平0.8个百分点的成绩登顶全球榜首。 [9]
2019年-2022年,文心大模型(ERNIE)在语言理解、文本生成、跨模态语义理解等领域取得多项技术突破,在公开权威语义评测中斩获了十余项世界冠军。 [10]

发布历程

2023年2月7日,百度官宣新一代大语言模型文心一言(英文名: ERNIE Bot)。百度全栈布局人工智能四层架构,包括芯片层、框架层、模型层和应用层。文心一言,位于模型层。 [1]
2023年2月13日,百度官微消息,文心一言将于3月和大家正式见面。 [11]
2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。 [2]
2023年3月16日,百度北京总部召开新闻发布会,主题围绕新一代大语言模型文心一言。百度创始人、董事长兼首席执行官李彦宏及百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰出席,并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。 [2] [12]
2023年4月16日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰再次做客CCTV-2 中国经济大讲堂》,阐释文心一言这类大语言模型的产品能力、技术原理和产业价值。 [13]
2023年4月17日,百度官微发文称文心一言在百度内部全面应用在智能工作平台“如流”。 [14]
2023年5月4日,百度创始人、董事长兼首席执行官李彦宏在内部“新使命六周年暨百度骄傲颁奖典礼”发言:文心一言内测一个多月,就完成了4次大的技术升级,大模型推理成本已经降到了原来的十分之一,推理性能提升近10倍。 [15]
2023年5月26日,百度创始人、董事长兼首席执行官李彦宏在2023中关村论坛发表题为《大模型改变世界》演讲。他表示百度很快还会推出文心大模型3.5版本。 [16]
2023年6月26日,百度创始人、董事长兼首席执行官李彦宏出席“世界互联网大会数字文明尼山对话”,发表了题为《大模型重塑数字世界》的演讲。提到文心大模型已经迭代到3.5版本,与3月份的3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。 [17]
2023年6月27日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰接受采访,详细解读了文心3.5在技术和工程上的升级。据了解,与文心大模型3.0相比,3.5版本不仅在创作、问答、推理和代码能力上全面升级,安全性显著提升,训练和推理速度也大幅提升。功能方面,文心大模型最大的一个变化是新增了插件机制。 [18]
2023年8月16日,WAVE SUMMIT深度学习开发者大会消息,文心一言已上线五个官方原生插件:百度搜索(使模型具备生成实时准确信息)、览卷文档(基于文档的长文本摘要和问答)、E言易图(数据洞察和图表制作)、说图解画(基于图片的创作和问答)、一镜流影(文生视频能力)。据介绍,文心一言目前可以支持一次同时使用3个插件,不但扩展了大模型能力边界,也更适应场景需要 。 [19]
2023年8月31日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万个问题。 [3-4]
2023年9月18日晚,文心一言大语言模型作为科技创新成果代表登上《新闻联播》。 [20]
2023年10月17日,百度世界2023大会上,李彦宏宣布文心大模型4.0正式发布,开启邀请测试。文心大模型4.0是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升。 [5]
2023年10月28日,中国计算机大会上百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰表示,文心一言发布至今,文心大模型4.0训练算法效率提升3.6倍,周均训练有效率超过98%,推理性能提升50倍。 [21]
2023年11月1日,文心一言专业版正式上线。文心一言官网显示,专业版会员连续包月费用为49.9元,单月购买为59.9元。此次专业版会员服务对应的模型版本是文心大模型4.0,而文心大模型3.5仍可免费使用。
2023年11月8日,世界互联网大会上,百度知识增强大语言模型关键技术荣获“世界互联网大会领先科技奖”。 [22]百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰披露,文心一言用户规模现已达到7000万,场景4300个。 [23]
2023年12月,国内首个官方大模型评测结果出炉,文心一言通过评测。 [25]
2023年12月28日消息,百度首席技术官(CTO)王海峰表示,文心一言用户规模超过1亿,飞桨开发者达到1070万。 [26]
2024年1月17日,由粤澳工商联会和百度联合主办的“百度‧澳门AI战略合作签署仪式暨文心一言App澳门智慧城市发布会”在澳门举办。 [28]
2024年1月,集微网消息,三星电子将在中国推出的Galaxy S24系列智能手机中集成百度的人工智能(AI)大语言模型文心一言(Ernie Bot),这将成为其新款手机系列的主要亮点。 [29]
2024年2月,据百度官微消息,目前文心一言APP正在内测数字分身新功能,2月2日起,iOS和Android用户升级新版本后,均可免费使用该功能。 [30-31]
2024年3月消息,百度文心一言4月将进行版本升级,届时也将开放长文本能力,文字范围会在200万-500万。目前,文心一言的文本上限大致在2.8万字。 [32]
2024年4月8日晚,百度官微宣布,文心一言正式上线语音定制功能。 [33]
2024年4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上表示,文心一言用户数已超2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过19万。 [34]
2024年4月16日,李彦宏正式发布了文心大模型4.0的工具版。 [35]

模型能力

播报
编辑
文心一言是新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。 [24]
五个场景综合能力
2023年3月16日文心一言新闻发布会上,百度创始人、董事长兼首席执行官李彦宏及百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。 [12]
  • 文学创作
文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。此外,文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题。生成式AI在回答事实性问题时常常“胡编乱造”,而文心一言延续了百度知识增强的大模型理念,大幅度提升了事实性问题的准确率。面对“于和伟和张鲁一有哪些共同点”、“于和伟和张鲁一谁更高”这类问题,文心一言也基于推理能力得出了正确答案。 [12]
  • 商业文案创作
文心一言顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。连续三次内容创作生成中,文心一言既能准确理解人类意图,又能清晰地表达,这是基于庞大数据规模而发生的“智能涌现”。 [12]
  • 数理逻辑推算
文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。 [12]
  • 中文理解
作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力,在中文语言和中国文化上有更好的表现。在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。 [12]
  • 多模态生成
百度创始人、董事长兼首席执行官李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。文心一言甚至能够生成四川话等方言语音。 [12]
文心大模型 4.0
2023年10月17日百度世界大会上,文心大模型 4.0 正式发布。百度创始人、董事长兼首席执行官李彦宏表示,这是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升,综合能力“与 GPT-4相比毫不逊色”。 文心大模型 4.0的理解、生成、逻辑、记忆四大能力都有显著提升,其中理解和生成能力的提升幅度相近,而逻辑和记忆能力的提升则更大,逻辑的提升幅度达到理解的近 3 倍,记忆的提升幅度也达到了理解的 2 倍多。 [5]
基于文心大模型4.0,百度创始人、董事长兼首席执行官李彦宏依次演示了四大能力的特点与应用场景。 [5]
在理解能力上,他通过询问公积金异地贷款政策的案例,展示了文心一言对前后乱序、模糊意图、潜台词等复杂提示词的理解力,例如“在北京工作”等同于“在北京缴纳公积金”等等,“今天,你说的每一句话,它大概率都能听懂”。 [5]
在生成能力上,李彦宏展示了文心一言如何在短短几分钟内,根据一张素材图片,迅速生成了一组广告海报、五条广告文案以及一条营销视频。据介绍,基于这一系列能力,百度已经推出了AIGC营销创意平台擎舵,让“一个人就成为一支AI营销队伍”。 [5]
同时,他还通过解数学题、总结知识点等场景,展示了大模型的逻辑能力;通过数千字的小说撰写和角色、情节设置,体现了大模型的记忆能力;以及数字人医生帮助患者解读药品说明书,来展现四大能力的综合应用。 [5]
文心大模型4.0在多个关键技术方向上进一步创新突破。在万卡算力上运行飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。建设了多维数据体系,形成了数据挖掘、分析、合成、标注、评估闭环,充分释放数据价值,大幅提升模型效果。基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保证模型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优,有效节省了训练资源和时间,加快了模型迭代速度。 [24]
文心大模型4.0在输入和输出阶段都进行知识点增强。一方面,对用户输入的问题进行理解,并拆解出回答问题所需的知识点,然后在搜索引擎、知识图谱、数据库中查找准确知识,最后把这些找到的知识组装进prompt送入大模型,准确率好,效率也高。另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有差错的点进行修正。 [24]
在强大的基础大模型的基础上,百度进一步研制了智能体机制,包括理解、规划、反思和进化,能够做到可靠执行、自我进化,并一定程度上将思考过程白盒化,让机器像人一样思考和行动,自主完成复杂任务,在环境中持续学习实现自主进化。 [24]

官网介绍

播报
编辑
文心一言官网向广大用户提供对话交互、内容创作、知识推理、多模态生成等模型能力,辅助用户工作、学习、生活中的各类需求;并上线了一言百宝箱、新手引导、问题推荐、标题摘要、回答复制、回答分享、历史对话管理等功能,帮助用户更便捷、深入地使用大语言模型;此外,文心一言官网还推出了多个原生插件:如百度搜索、览卷文档、E言易图、说图解画等,进一步拓展了大语言模型的能力边界,更广泛地满足用户需要。
文心一言专业版则向用户提供了更强大的文心大模型4.0、更丰富的图片生成能力、更多的高阶插件、更长的输入输出、升级的产品界面等会员尊享权益,进一步发挥大语言模型对专业用户的独特价值。

产品功能

  • 一言百宝箱
用户可在一言百宝箱搜索、浏览不同职业和场景的优质指令词,学习指令撰写技巧、使用符合自身需求的指令;用户还可以查看当日热门指令,收藏高频使用的指令。
  • 问题推荐
用户可以在文心一言官网首页点击问题推荐模块,快速了解模型能力;此外,模型会根据用户的问题,自动生成推荐问题,帮助用户进一步发掘和满足需求。
  • 对话管理
用户可以对文心一言的回答进行复制、分享,还可以对历史对话进行置顶、修改标题等操作;此外,模型也会自动摘要历史对话的标题,帮助用户快速定位过往对话。

衍生插件

基础插件介绍
览卷文档
原ChatFile,可基于文档完成摘要、问答、创作等任务,仅支持10MB以内文档,不支持扫描件。
E言易图
基于 Apache Echarts 为您提供数据洞察和图表制作,目前支持柱状图、折线图、饼图、雷达图、散点图、漏斗图、思维导图(树图)。
说图解画
基于图片进行文字创作、回答问题,帮你写文案、想故事。暂仅支持10MB以内的图片。
商业信息查询
由爱企查提供商业信息检索能力,可用于查企业工商/上市等信息、查老板任职/投资情况。
TreeMind树图
TreeMind树图,新一代的AI人工智能思维导图软件。我们提供智能思维导图制作工具和丰富的模板,支持脑图、逻辑图、树形图、鱼骨图、组织架构图、时间轴、时间线等多种专业格式。利用先进的AI技术,助您高效学习与工作。
高阶插件介绍
说图解画Plus
基于图片进行文字创作、回答问题,帮你写文案、想故事、图生图。暂仅支持10MB以内的图片。
一镜流影
AI文字转视频,从主题词、语句、段落篇章等文字描述内容,一键创作生成视频。
仔细想想
深入分析文心一言的回复内容,得出反馈建议、优化回复结果。当前只对文字创作和部分问答任务生效,暂不支持与其他插件同时使用。

专业版权益

专业版权益介绍
权益点
专业版会员
非会员
模型能力
文心大模型3.5
文心大模型4.0
更长的输入输出
输入5k字+输出2k tokens
输入2k字+输出1k tokens
图片生成
图片分辨率
1024*1024
512*512
画图效果升级
一次生成多图(网页端)
插件权益(网页端)
基础插件
高级插件

技术优势

播报
编辑
百度在搜索、人工智能领域深耕20多年。自2010年起开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司。从昆仑芯片、飞桨深度学习平台、文心大模型到应用四层架构中,百度在技术栈的各层都有领先业界的关键自研技术,实现了层与层反馈,端到端优化,大幅提升效率。文心一言新一代大语言模型,位于模型层。 [2]
文心一言的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。 [2]
知识增强
主要有“知识内化”和“知识外用”两种方式。
知识内化是从大规模知识和无标注数据中基于语义单元学习,利用知识构造训练数据,把知识学习到模型参数中;
知识外用则是引入外部多源异构知识,做知识推理、提示构建等。 [2]
检索增强
来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果,可以为大模型提供时效性强、准确率高的参考信息。 [2]
对话增强
基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,从而更好实现对话的连贯性、合理性和逻辑性。 [2]