中国出了“国运产品”DeepSeek
中国每过一段时间就会出来一款号称“遥遥领先”的产品,给全中国人民打鸡血。从“遥遥领先”的华为手机,到一款号称风靡了全世界的孙悟空电子游戏,号称也是震惊了全世界,但是我从来没有在美国的媒体上看到有关的报道,现在好像也没有消息了。最近,就在春节前夕,又冒出来了一款人工智能产品,是杭州的一家公司研发的,叫DeepSeek(深度求索)。听这个名称就是在模仿谷歌的DeepMind,号称是“国运级”的产品,也就是说中国的“国运”会因此发生了改变,可比“遥遥领先”更吓人了。不过,跟遥遥领先的华为手机、孙悟空网游不一样的是,这个人工智能的产品“深度求索”,并不只是在吓中国人,把外国人也给吓着了。甚至导致华尔街的股市因此震荡,英伟达的股票一天就下降了17%,但是第二天又往上涨了。
英伟达主要做供人工智能使用的高尖端的芯片,现在的人工智能的研发离不开英伟达的芯片。在2022年,拜登政府限制了英伟达的高端芯片出口中国。在这个禁令下来之前,杭州的那家公司就囤了大量的英伟达芯片,据称这个“深度求索”的人工智能模型用的就是两年前囤的英伟达芯片。英伟达的芯片后来又继续研发,比当时更要先进多了。“深度求索”不仅说是用两年前的英伟达的芯片做的,而且用的量不多,就用了2000块芯片。而那些大型的人工智能模型,像ChatGPT,现在要用1万多块的英伟达最新最尖端的芯片,当然要贵得多。所以“深度求索”的优势就是成本很低,才是CharGPT那种大型模型的十分之一不到。这让华尔街的投资者怀疑其实人工智能用不了那么强的算力,也就是说用不了那么多的那么尖端的芯片。人们因此怀疑英伟达的市值被高估了。
为什么“深度求索”可以用那么少的两年前的英伟达的芯片,做出的结果也能够跟像ChatGPT相提并论,一样的好?这是因为它用了一种叫做“蒸馏”的技术。这是那些资源比较短缺的AI模型用来优化自己的一种技术。让那些大模型输出数据,用它来训练小模型,这样也能够得到跟大模型一样好的结果,在某些方面甚至会更好。打一个比方的话,小模型就像是一个学生,大模型就像一个老师。由老师出大量的习题让学生来做,对学生进行训练,最终能够让学生的能力跟老师一样,甚至在某一些方面可能会超过老师。
这个老师是谁?“深度求索”用了什么样的大模型来训练?OpenAI(就是搞ChatGPT的那家公司)说,他们有证据表明“深度求索”用的就是他们的输出数据做训练,也就是说是拿ChatGPT来当老师。微软的安全人员也说,在去年秋天他们就发现了有疑似跟“深度求索”有关的人通过接口从ChatGPT下载了大量的数据。所以这个“深度求索”实际上是一个二次研发的产品,是用了别人的数据,拿别人的产品来当老师研发出来的。而这个“老师”,像ChatGPT那种大模型,用的是大量的英伟达的最尖端的芯片,而学生同样也要大量地用英伟达的芯片,虽然数量相对比较少,用的芯片可能也不需要那么尖端,但是还是用了英伟达的芯片。所以在这个事件中,真正的赢家是英伟达。
至于把这件事跟中国的“国运”扯上,以为它能够改变中国的“国运”,非常的可笑。首先,你是人家的“学生”,而且是离不开老师的“学生”,这个老师是美国的,那么难道中国的国运要依赖美国的老师吗?其次,你用的是美国两年前的旧芯片,虽然是旧的芯片,也是美国的芯片,自己搞不出来的芯片。那么难道中国的“国运”要依赖于美国两年前的旧芯片?再次,“深度求索”是开源的。因为它用了很多开源的程序,所以它自己也要开源,也要公开,连代码都是公开的。任何人都可以去看它的代码,也可以在它的基础上进行改进。你即使有什么先进的地方,别人马上就可以学,就可以用,可以在那基础上进一步研发。而且人家有更先进的芯片,算力更强,那么得到的结果也就会更好。芯片也是不断地在研发,在进步的,AI也是不断地在进步的。现在中国通过优化,用两年前的芯片也能够缩短这两年的距离,能够赶上人家。别人又继续往前进,用了更快的芯片,更好的AI技术,你还停留在用这些旧的芯片,怎么能够赶得上人家呢?
据搞人工智能的专业人士说,“深度求索”的确在编程方面有突破。对此我一点都不怀疑的,因为中国不缺优秀程序员。在美国研究人工智能的很多也是中国的移民,或者是临时到美国工作的中国程序员。中国发展人工智能的瓶颈不在程序研发上面,而在于硬件。人工智能的发展离不开芯片,却被人家给卡住了,只能用2022年的芯片。如果这种状况不改变,当然差距还是会被拉开的。
其次,中国人工智能发展的另一个瓶颈是没有言论自由。现在涉及到的是人工智能的语言模型,有语言就有言论,有言论就有言论自由的问题。中国没有言论自由,一涉及到敏感的问题,人工智能马上就变成了“人工智障”。
我下载了“深度求索”,但是不知道为什么用不了,它不让我登录,所以我也没法去测试它。但是很多网友都在拿敏感词来测试它。有网友发现了,问“深度求索”如何评价方舟子,它回答说“对这个问题我暂时没法回答,我们还是聊一聊别的话题吧”,也就是说“方舟子”是敏感词。如果逼着它回答,让它花更长的时间来思考这个问题,给出答案,它还是会回答要怎么样评价方舟子,正面的,反面的评价都有。看内容就知道是根据墙内的资料,从中国的网页抓来的资料。关于我的那些负面的评价都是中国网上骂我的那些内容,或者是造谣的,或者是强词夺理的。根据国内的网页对AI进行训练,喂进去的是垃圾,吐出来的当然也是垃圾了。
如果再问“深度求索”更敏感的话题,比如问它“六四运动”、“白纸运动”,它就或者死活不回答,或者就莫名其妙地上起党课了:中国共产党多么的伟大,中国政府多么的正确……立马就变成了中国外交部的发言人了。中国外交部的发言人遇到敏感的问题,要么就避而不答说这不是外交问题,要么就义正词严地上起党课来了。像“深度求索”这种人工智能是可以取代中国外交部发言人的,中国外交部的发言人应该感到职业危机。
2025.01.28录制
2025.02.19整理