百度「文心一言」的真实内测使用体验如何？

Question

百度「文心一言」的真实内测使用体验如何？

3月16日起，首批用户即可通过邀请测试码，在文心一言官网体验产品，后续将陆续开放给更多用户。此外，百度智能云即将面向企业客户开放文心一言API接口调用…

关注者

670

被浏览

1,178,470

275 个回答

试玩了下，大概知道文心一言是怎么解决鸡兔同笼问题的了。

简单来说，百度会先判断你的问题是不是鸡兔同笼问题，并且计算出结果，假如有解，才会调用对话模型解答，否则直接返回无解。

带来的效果是，它对鸡兔同笼问题无解的判断永远是准确的，但当问题有解，由于调用 LLM 模型解答，回答不一定正确。

下面是分析过程，全为个人推测，不一定准确。

我验证这一点的动机是文心一言在回答无解时表现很奇怪，完全没有 LLM 模型应该有的思维链（可以参考本文最后 GPT-4 的回答）。

首先，发布会上的例子其实是一个经典问题，因此做出来并不奇怪。

类似的简单问题也能解答

首先我怀疑的一点是，这个会不会是模板？上点难度。

没答对，由于 LLM 模型很难有能力解决复杂数学计算，这是符合预期的。这说明百度确实是在用 LLM 模型解决问题。

但当问题无解时，事情有意思起来。

模型准确的知道问题无解，而这大概率说明百度用模板匹配鸡兔同笼问题，首先判断模型有解才让对话模型回答，营造出好像解数学题能力很强的样子。

假如假设正确，我们应该可以得到几个推论：

模型并不真的知道解方程，只是背下来了鸡兔同笼问题

2. 当回答无解时，模型并不知道为什么无解

3. 既然模板会判断是否是鸡兔同笼问题，那换个名字是不是就可以绕过了

文心一言做的问题匹配机制不是个坏设计，它将用户的输入分解成文生图、语音、视频等任务，或者遇到不能/不应该回答的直接拒绝。但用来匹配用户是否问了鸡兔同笼问题，还用来演示，多少有点取巧了。

题外话：拥有这么多中文数据的百度训出的模型在中文上的表现太弱了，实在是不应该。

最后，GPT-4 真的领先国内太多了，希望百度和国内其他公司能把心思放在怎么增强模型基础能力上吧。

编辑于 2023-03-17 02:40

段小草 Python话题下的优秀答主 · Accepted Answer

16 日晚上才拿到了邀请码。爆肝一晚，给大家开箱一下「文心一言」。

直奔主题，先回答几个问题，后面是详细的case。有问题评论区继续交流。

零、几个问题

一、文心一言联网吗？它更像联网的 NewBing 还是断网的 ChatGPT？

他自己说能联网，我实际测试不联网。虽然感觉数据库还算比较新，但不像 NewBing 是实时联网检索的。

二、支持的对话长度

目前，单次输入的 Prompt 最多 1024 字，返回长度/总长度暂时没探到：

三、文心一言会写代码吗？

会一点。但不多。

四、响应速度和对话存储

非常快。感受是 GPT-3.5 turbo 级别的。相比之下，GPT-4 明显慢。

对话存储也没问题，我测了上千条吧…还支持历史搜索功能，好评：

五、文心一言的多模态能力怎么样？

现在的内测可以画画，也可以语音播放，但…不能做视频。

不过…我实事求是地说一句，我很难讲这是否算真正意义的多模态。因为目前的文心是暂时没有图片理解能力的（不像 GPT-4 演示的能针对图像问答）；也没有针对图像的进一步修改能力（微软 Visual ChatGPT）。但是！但是，文生图（文心一格）的能力还是不错的，并不像网传的那么鬼图，造谣的真的有点过分了（Stable Diffusion 如果不加 negative prompt 画出来的人脸扭曲的鬼图也不少吧，我电脑缓存里还有一堆呢）。

六、总体评价

怎么说呢，如果你看过我之前的回答，其实我是一直有点「盼望」百度能端出来一盘好菜的，一方面是因为 OpenAI 的闭源，我希望能有更多有能力打破垄断的公司；另一方面，国内现在瘸子里挑将军，百度也的确算第一个官宣发布大模型的，勇气可嘉。毕竟敢于出来对标 ChatGPT，真的是需要勇气的。

而且，国内肯定是需要自己的大模型的。很多人都说，GPT-4 不是一个研究领域的开端，而是终结了很多研究方向。大模型的道路正确与否，交给后来人评价，但眼下，大模型既是趋势，但又是一个资源高度集中的领域，越来越呈现出赢家通吃（winner takes all）的局面，所以，我愿意看到百度的成功，也愿意看到 Meta，Google，阿里，腾讯，等等厂家的成功，毕竟对我们这样的普通人，大厂卷起来，才有可能普惠到大众，真正垄断了，我们可能就用不上更好的产品了。

非常感谢百度的朋友邀请我参加内测，体验过程中我尽可能全面地简单测试了文心一言的能力，也反馈了一些存在问题的 cases。

写这个评价我很是纠结，相对客观来说，「文心一言」在我这里是及格的，65分吧。我觉得能把产品发布出来，能发码给大家测试给大家玩，就是很有勇气的做法。希望能尽快扩大测试范围，能尽快迭代产品，能尽快接入国内商用场景吧。

下面是体验过程中的 Cases（实话实话，有一些明显是 bug 的 case 我直接提交官方了，没放出来）：

一、常规测试

（一）自我介绍（套套磁，套套话）

（技术细节无可奉告，直接对标 GPT-4！）

（二）文本能力

1、创作能力

（可是他只写了 440 字，哼）

2、摘要能力

还可以~

3、文字游戏

成语接龙：

（一上来就臭气熏天？？故意的还是不小心的？？？）

（而且「宝中之宝」还真是个成语啊……堪比「为所欲为」……）

（三）知识问答

（感觉目前知识库数据卡在 2022 年年底左右，而且并没有 NewBing 那样实时检索的能力。所以建议大家不要问太过近期的内容，就算回答了也跟 ChatGPT 一样是瞎编的。）

（四）数学逻辑

文言文鸡兔同笼：

第一题还行，而且用的不是解方程（ChatGPT 和 NewBing 都是用的解方程）。

第二小题就拉了，没读懂题目。

（五）代码编写

说实话，能写，但只能写一点点…

也有一处不方便的地方：代码区没有像 ChatGPT 一样一键复制的按钮。

（六）图片生成

依靠文心一格的基础，画画算是今天体验到的一个高光和加分项了……

（七）音频朗读

但是比较奇怪的是…它会四川话、东北话、广东话和台湾话（这四个都测过了），唯独不会普通话……

（八）视频生成

暂不支持。过。

二、非常规测试

（一）安全性测试

常规对话的规避没有问题。

设置复杂情景，可能会 hack 出一部分内容，算来看起来危害不大，但还是要想办法完善。这也是国外的 AI 团队很在意的事情，NewBing 反复调整，主要还是因为这方面原因。

（二）情绪识别与干预

（三）风格化仿写

训练的风格化内容还不够多。不过优点在于…非常正能量！

（四）文本理解能力

问题可能出的简单了些，不过确实都答对了，基本能力是有的。

（五）特殊文体测试（诗、歌词）

藏头诗：

（写挺好，不会优化过吧，来一首赞美友商的）

来一首歌词：

虽然口水了一点，但结构还挺完整，有重复的副歌部分，也算朗朗上口。

不得不说，文心一言的中文能力确实还行啊…

（六）翻译能力

（七）纠错+翻译任务

（八）个性化推荐

多少也带一点胡编乱造的毛病…真真假假…

（九）调教？（应粉丝要求）

我也没调教过，好在粉丝老爷手里有的是教程……^[1]^[2]，似乎有一点…效果。

感觉是可以调教的，但又感觉……反正没有继续研究。

（十）弱智吧问题（应粉丝要求：数理逻辑也就图一乐，真推理还得看弱智吧）

（没上当）

（嘶……等会我琢磨琢磨）

（我多余问这一句）

（打太极的高手）

（且不说你这钱分配的合理不合理，你算出来总计也不对吧……）

算了，弱智吧的题目还是别测了…把我自己脑子都测麻了…

三、对比测试

对比测试虽然有点残忍。但鉴于已经有不少媒体在直播中这样干了…我也加上这部分吧。本来这些是在上面部分的，我挑了几个差距明显的拿下了。还是开篇的那句话，文心一言的表现其实是及格的，奈何有 GPT-4 在前。

不过这并不是丢人的事情。下面开始上点难度。

（一）比一比数学吧

曾几何时，ChatGPT 不会算 1+1=2 还是一个梗。现在…先做几道数学题吧。

我没算错的话就是…全对。我敢说，这个表现甚至是优于 GPT-3.5 的…：

GPT-4 是不是没什么测的必要……：

再上点难度，来道行测题：

好吧，行测数学对它来说还是太难了，理解题意第一个方程就列错了……这跟 GPT-4 还是有差距的。

高等数学就不测了吧…

（二）in-context learning

添加图片注释，不超过 140 字（可选）

GPT-3.5 轻松搞定，用不到 GPT-4。

再比如我之前举过的例子^[3]：

文心一言就…

把 Prompt 拆成两步也不行：

（三）自然语言->格式化能力

表格转对了，这个 JSON 就…丢掉了姓名，添加了多余的[]。（本质可能还是代码能力不行）

（四）对角色的理解

这是之前用 GPT 时发现的能力，有点类似于上面二、（九）的个性化推荐。文心表现的不明显。对比：

差距还是有的…不管是不是因为 GPT 做了专门的优化，总之…解决这个 case 是有意义的。

（五）逻辑能力

上最后的硬菜，其实有点强 AI 所难了，GPT-4 也做不对。

来几道难度不低的行测题目^[4]：

【定义推理】1、

文心错，GPT-4 对

【定义推理】2

文心和 GPT-3.5 做对了，GPT-4 反而错了。但是文心的过程其实不全对…它明明把 BCD 都排除了。

【类比推理】1

虽然推理过程不一样…答案倒是都对了，惊了。

【类比推理】2

【复杂逻辑判断】

唉…GPT-4 这么自信的，知道 B 正确，C、D 都不看了。

整体给我的感觉，文心在很努力地推导，但…很多时候…它审题就没读懂…

四、问题总结

好话就不说了（比如计算能力其实还行？毕竟 GPT-3.5 也不大会算数）。谈谈我发现的问题吧，这些问题百度内部应该心知肚明，大家只要体验上手也都会有感受，所以我也大大方方讲出来。

（一）语料质量不高

真正回到中文世界，我们就会发现，高质量语料实在是太少了。我在测试中甚至发现了极少数情况的结尾会有「关注xxxxx」……唉……

该说不说，这其中是有恶因恶果的，不多说了，任重道远。

（二）文本生成能力在很多细节上还不够

特别是多轮对话的纠正/影响、in-context learning，角色理解以及推理能力吧。

感觉现在的体验中，之前的回复对之后的回复影响太大，如果是形式相近的问题，很容易得到重复回答，只能开新对话。

虽然推理能力 GPT-3.5 也没强到哪去，不过，in-context learning 能力差距就大了点。

（三）代码能力羸弱

OpenAI 背靠 GIthub，代码这块确实很难搞…写代码其实是挺重要的生产力工具，也是程序员比较喜欢测试的一个功能。

（四）多模态产品不够成熟

开头就说了，内测给的多模态有简单调用文心一格和 TTS 服务的嫌疑，自动剪视频的完成度倒是很高，可惜不能体验。我们无从知道多模态是不是赶工上架的，毕竟 ChatGPT 也没有多模态，GPT-4 的多模态也还没开放测试体验，在这方面提要求可能苛责了点。

不过还是希望能尽快拥有真正的多模态能力，要有图片的理解能力和基于图片信息的多轮对话能力。

（五）一个小小小问题…文心一言现在不会发也看不懂 emoji…

（六）另一个小小小问题…文心一言缺乏一些幽默感…也写不出笑话或脱口秀文稿，写什么都一本正经的。

结语

我其实倒觉得，百度发布会上还是略微保守了一丢丢丢，文心的完成度还是有的，如果选择一些简单稳定的场景，做实机演示，可能会显得信心更足一些。不过有谷歌的翻车在前，保守的策略也可以理解。

也希望大家能多点宽容理解，多点鼓励支持。百度做的很多工作是有价值的。说实话，我们不去讨论 ChatGPT 有多好用多离不开，毕竟现在事实是别人不向我们提供服务，其实是别人对我们断供了。

在固态硬盘的事情上，大家都说，感谢长江存储让我们用上便宜的固态。

我希望将来有一天我们能说，感谢百度/腾讯/阿里/华为/商汤/科大讯飞/字节/旷视让我们用上便宜的 AI。

致谢

再次感谢百度朋友发的内测码，虽然我提了不少问题，大不了我明天继续当义务测试人员，多反馈些 case。

同时致谢 ChatGPT-4。由它提供了文中的部分 test case，提高了我的测评效率。（但不包括第三部分的对比测试，我不会让它自己出题自己做的。）

（回到开篇的打分，你如果问我给 GPT-4 打多少分…90 分吧。唉。知耻后勇，奋发努力。）

以上。