Josherich's Blog

HOME SHORTS PODCAST SOFTWARES DRAWING ABOUT RSS

翻电Special DeepSeek大规模应用会如何改变公共舆论,“幻觉长城”不是最令人担忧的 VOL.153

09 Feb 2025

DeepSeek 这个话题最近非常火,但其实我已经做了两期关于DeepSeek的节目的YTB。在这两期节目中,我基本上是说DeepSeek的模型其实是有挺大问题的。这个模型确实采用了很多方法来优化,使得无论是在训练中的算力,还是在深层使用中的算力,都能显著下降。我在这两个节目中进行了大量的测试,强调优化本身是有代价的,而且这个代价并不是很多人轻松就可以用一句话总结为“这个模型便宜的特别多,比O1差一点点”的说法。模型本身的性能确实存在很大的问题。

简单总结一下,我的两期节目基本是在说DeepSeek,尤其是DeepSeek R1的很多输出结果,如果发到网上其实是很有娱乐性的。有时候看上去很荒唐,有时候看上去很唬人,但如果要稳定地作为工作工具来使用,不管数学和编程如何,如果有人把它当作自然语言的、稳定的工具来使用,其实是有很大问题的。

如今的DeepSeek R1毫无疑问已经火起来了,而且使用人数也很多。今天我们就来讨论一下,如果真的大规模推广使用,显然不可避免地会对我们的整个公共娱乐环境造成什么样的冲击。在这个话题中,大家好,欢迎收听新一期的Finding Special节目,我是李厚诚。今天我们不妨来聊一聊DeepSeek,尤其是DeepSeek R1。

在春节期间,DeepSeek资金大火,我听到很多听众和观众告诉我,这个话题已经火到家里的长辈,七大姑八大姨都在讨论,都在下载使用。但我不知道这个东西火得有多广,所以在评论区希望大家能给我反馈一下,你家里的长辈们是否也在使用和下载这个东西。如果真的火到这种程度,应该很快就会在各个领域中得到应用。不管是什么公众号文章、短视频、长视频,很多人都应该会用起来。一旦用起来,无论DeepSeek R1的性能好不好,至少春节这一波大的内宣完成了中国到基层的AI普及。

今天我们来讨论这一波普及可能带来的影响。其中,有一篇文章传得最火,那就是所谓的“幻觉长城”。那么,幻觉长城这个事情是否真实存在呢?这一定是存在的。什么是幻觉?大概就是说,DeepSeek R1会编造一些内容、数据,甚至虚构一些不存在的事实,这种现象被称为hallucination。

当然,模型本身并不具备编造事实的能力。其实早在很久以前,ChatGPT刚问世时我就曾做过一个关于ChatGPT模型构成的节目,强调了Transformer算法的Token Prediction属性。Token Prediction就是在一段话中去猜测下一个字最大概率是什么。因此,对一个大型语言模型来讲,只要言之成理,甚至不需要说得非常道理,只要这句话是通顺的往下说就没有问题。对于它来讲,分辨真假、真与假,如果不经过后期的其他训练,根本没有办法去分辨。

大家可能会发现很多幻觉的出现,而这些幻觉又在不同的模型中需要被控制。我们怎么去度量幻觉呢?有一个专门用来度量幻觉的工具,叫做Vectara HHEM Leaderboard。HHEM(Huse’s Hallucination Evaluation Model)是一个专门用来将模型输出结果与很多权威事实在空间向量上进行对比的工具。具体细节就暂且不多说了,反正这上面有一个专门比较各个模型的hallucination率的榜单。

那么DeepSeek R1的幻觉到底有多强呢?我给大家做一个横向的对比。最近刚发布的新榜单中,第一名幻觉率最低的模型是Google Gemini 2.0的Flash第一版,hallucination rate只有0.7%。第三名则是OpenAI新发的O3 MiniHide这个reasoned模型,其hallucination rate是0.8%。这些数据看起来似乎不错,但随着排名的下降,幻觉率逐渐上升。例如,OpenAI的GPT 4.0的hallucination rate是1.5%,而OpenAI的O1 reasoned模型的hallucination rate则高达2.4%,而DeepSeek的V2.5也与此持平,即hallucination rate同样为2.4%。更进一步,DeepSeek的V3模型,即R1的基础模型,hallucination rate是3.9%。

现在,DeepSeek R1的hallucination rate已经上升到了14.3%。这确实是一个非常高的数值,14.3意味着如果达到这样一个水平,实事求是地说在高端使用上基本无法达到有效的应用。实际上,大家在使用时也会发现情况确实如此,hallucination频繁发生,几乎达到了成片出现的程度。就像我在一条关于深沉的信息流中问了它一个问题,回答的每一句话都带有所谓“证据”,但几乎每一句证据都是编造的事实。

在使用DeepSeek R1时,我询问到“斯坦福大学的实验表明,当个体每天接触超过20条论证内容时,逻辑判断准确率下降47%”,这个论断一点事实依据都没有。类似的,还有“哈佛大学语言分析表明GPT类型的内容在逻辑连接词使用频率上是人类的3.2倍,但实质性论证密度仅为人工写作的31%”也是虚构的。此外,诸如“牛津大学观测到拉斯兰格猫内容主导讨论区,平均用户阅读时长从142秒降至89秒,深度回复率下降71%”这样的论断完全没有出处。再比如,“麻省理工学院提出批判性AI素养框架,强调需要培养Provenance Tracking、Argument Decession、Intent和Reasoning三大新能力”等等,这些引述实在是毫无根据。

从上述多个例子可以看出,DeepSeek R1一旦开始编造,就如此广泛,几乎每一条都不可信,但它的表达方式又似乎相当合理。因此,DeepSeek R1的hallucination实在是个真正的问题。特别是在你需要依赖它进行正式工作时,第一,因为其服务器实在不稳定;第二,hallucination rate太高导致它完全无法适用。如果想用AI模型辅助进行一些正经的工作,不得不承认,模型优化总是会造成代价。

那么,为什么DeepSeek R1的hallucination rate会如此之高呢?答案在于有限算力下的误差近似运算,以及进行中的近似运算带来了这样的hallucination。此外,R1的reinforcement learning奖励机制,也让它在一些基本事实问题上的训练显得略为不足,导致频繁出现这样的问题。

简单来说,DeepSeek R1类似于让人去画一个建筑物的任务。设想一下,我们让一个人站在一座高楼前观察20分钟,然后再去画,这就是GPT模型的工作方式。而对于DeepSeek R1,由于要求高效和时间有限,它可能只观察了5分钟,然后画出来,确实会出现一些细节上的漏洞。虽然它的整体轮廓和形状都对,但实际上包括窗户细节、外观细节等都可能是编造的。由于工作的限时和效率的压缩,DeepSeek R1生成的文本框架或形式虽是对的,但细节却是完全虚构的。

所以,DeepSeek R1的幻觉实际上是一个真实而严重的问题,而在HHEM的Leaderboard上显示出来的14.3%的hallucination rate让它的排名非常靠后。对于社会和公共舆论来说,深层的hallucination带来了巨大的隐患。我们可能面临虚假信息泛滥的情况,以及我们个人思考惰性的增加。

平心而论,我认为这些问题并不新鲜。大家在AI普及之前,难道没有面对过公共舆论环境中的虚假信息吗?甚至可以说,随着AI的出现,这些问题也并非是新问题。因此,有必要思考一下,如果七大姑八大姨都开始使用大型语言模型(Large Language Model),会导致什么样的新问题。

在这一波AI推广中,我设想出的第一个问题是说理信息的增加。过去,有“信息爆炸”一说,意指在互联网时代,我们每天接触的信息量巨大。然而,我认为现在将出现“说理爆炸”,即生成论点信息的门槛在进一步降低。未来,借助大型语言模型生成论点的能力,会使得人们在表达观点时变得更加容易。人们将能在内容中轻松创建结构清晰、逻辑条理的论据,尽管这些论点的真实性和严谨性有待考究。

迄今为止,由于AI降低了输出论点的门槛,外界在短时间内可能会涌现出各种各样的说理表演。在说理领域,表演形式化、规范化的内容将趋向于大行其道,而它们的逻辑清晰性和严谨程度将受到怀疑。

随着说理爆炸的出现,人们可能会受到诸多表演性说理内容的轰炸。可以想象,无论是文章还是视频,内容创作者都可能以结构化、条理清晰的形式输出观点。虽然这样的表演性说理在形式上可能引起我们的注意,但其实质往往是空洞的,容易混淆真真假假,导致极大的认知疲劳。

第二个问题则是地方化、私人化的语言将面临严重的减少。大型语言模型本身实际上是一种统一的模板,它将不同的语言和视角进行压缩与解压缩,从而生成内容。这种压缩的过程,往往容易导致地方化、私人化语调的稀释,造成语言表达上的多样性下降。

综合来看,公领域中的高频使用大型语言模型,必定会迎来一种新的语言整合趋势,将大量独特的、富有文化内涵的语调进行稀释,从而引发对个体表达能力的限制,导致文化及情感误读等问题。

在此背景下,我想重点提到,中文作为一种高语境的语言,其特性在于,语境的意识、语言的微妙运用常常是理解内容不可或缺的一部分。可悲的是,当前的家语言模型在这种语境构建上显然存在局限。它们难以把握中文语境的微妙细节,最终将失去高语境语言的独特魅力。

最后,我要提到的是,大型语言模型在运用概念方面存在空洞化的风险。总是沿用一些比较苍白无力的术语,缺乏对实际语境和概念演变的敏感性。因而,它们生成的内容不仅难以引发深度思考,也可能在某种程度上造成思想的贫乏。这种贫乏将使信息的传递失去灵魂,而缺乏真实性和时效性也将让公共舆论变得空洞无物。

通过以上讨论,我们可以看出,DeepSeek R1及其他大型语言模型在说理爆炸、语言减少、高语境抵达等方面的影响,将逐渐显现出持久的、深远的后果。在适应这一新时代的同时,个人的信息辨识能力也需要随之提升。无论是作为信息的创造者还是接收者,我们都需要花费更多的时间去思考如何有效处理、分辨AI生成的内容。

在结束之前,我想总结一下今天的讨论内容,包括DeepSeek在过程中涉及的诸多问题,合理的支持是我能继续为大家提供高质量内容的重要动力,也希望能得到你们的支持。如果你希望支持我,可以在我的ShowNote中找到相应的链接。感谢大家的收听,我们下期再见。