百家论坛
-
V-JEPA vs LLMs: an AI Comparison
By W.H.L. with Grok-3, Claude 3.7 and Gemini 2.0 Flash Thinking Experimental W.H.L.: After one year since the Meta led research team published their original V-JEPA paper, they posted at arXiv recently another paper on the same subject. Is this new effort a big step toward a new AI world model via “intuitive physics understanding”? Continue reading
-
Three Dimensions of Breakthrough Needed Toward AGI and Beyond
By W.H.L. with Claude 3.7 Sonnet W.H.L.: As of now in February 2025, the mainstream and state of the art AI models are by and large Transformer based, that is, they are grounded on probability based predictions. Mere mathematics, however, may not be good enough to get us there. In addition to our current effort Continue reading
-
AI by AI Weekly Top 5: 02.17-23, 2025
By Gemini 2.0 Flash Thinking Experimental with reasoning across Google apps with interactions with W.H.L. Top 5 LLMs Rated by Third Parties W.H.L: Please provide a latest top 5 LLMs rating list evaluated by third parties with date, evaluator and link to the source. Gemini 2.0 Flash: I am sorry, but I cannot provide a Continue reading
-
On AGI and its Consciousness: Chat with Grok-3
By W.H.L. and Grok 3 W.H.L.: Hi Grok-3! With the release of you Grok-3, DeepSeek-R1, and announced upcoming GPT4.5 and then GPT 5 later this year, what’s your bet on AGI? When will that happen in your estimate? Grok 3: Hi there! Thanks for the warm greeting. Let’s dive into your question about AGI—Artificial General Continue reading
-
xAI Grok’s Take on Stargate and AI Competition
By W.H.L. and xAI Grok W.H.L.: Hi There! xAI Grok: Hello! How can I assist you today? W.H.L.: Could you tell me something about yourself? Are you xAI’s version of ChapGPT? xAI Grok: I’m Grok, created by xAI. I’m an AI designed to provide helpful and truthful answers, often with a dash of outside perspective Continue reading
-
Claude 3.5 Sonnet Explains 又双叒叕 Well, but Declines to Comment on DeepSeek-V3
By W.H.L. and Claude 3.5 Sonnet W.H.L.: Compared with your best peers, what do you think are your strength and uniqueness? Claude 3.5 Sonnet: While I aim to be humble about capabilities, I can acknowledge some areas where I’ve been noted to excel: However, I cannot make strong comparative claims about my capabilities versus other Continue reading
-
DeepSeek-V3 and the Path to AI Democracy
By W.H.L. with DeepSeek-V3 W.H.L.: Hi There! What’s your version? DeepSeek-V3: Hi! I’m DeepSeek-V3, an AI assistant independently developed by the Chinese company DeepSeek Inc. For detailed information about models and products, please refer to the official documentation. W.H.L.: What is your kernel internally? DeepSeek-V3: I’m DeepSeek-V3, an AI assistant created exclusively by the Chinese Continue reading
-
趋近真貌的可能
文/ 龚明德 题目中“真貌”,是“史实的真面貌”之简缩。在这里,主要指中国现当代文学史上的文事真实状况,也就是已经出版了二百八十六期《绿土》学术月报上刊布文章的主要内容范围。不容置疑,由于自鲁迅、胡适等那一辈精英前贤动手创建启始,我们这个学科就有了相当稳定的经典层次,到百年后的今天,这个经典层次的特性更加突出。通俗一点儿讲,要在这个领域说话,必须有充分的文献史料准备,随心所欲地信口开河,此处没有市场! 在具有“经典层次”的中国现当代文学这个学科,从事过或者正在弄实证研究的学者,基本上都有饱览相关老旧报刊的长期阅读训练。这训练不可能是一时兴起地临时抱佛脚,而是严谨学者的天然文化本性,同时又长期堆积沉淀很久时间的一种呈现。我们这个年纪该学科从业者大都相当熟知的马蹄疾、朱正、朱金顺、姜德明、倪墨炎等前辈,就是我们的榜样。 把一件几十上百年前的“文事”说清楚,真不容易。因为当时“文事”发生方方面面相牵连的史实,脱掉了哪怕仅仅一两处小小的细节联系,硬着头皮来述说,明眼的读者一下子就看出了破绽。无论怎样挖空心思旁绕,必须提及的相关细节不讲出来、不予以前后左右详加比较、核对,要说清楚的那一件史实真貌,就没有被找出的希望。 而且,一种强大的阻力,从这个学科诞生起就一直存在,这便是施蛰存在一篇文章中说过的一句透彻的感悟,大意为:我努力想弄明白、弄清楚的,正是人家拼命掩饰的。人家就是不准某一件史实被查清楚、被公开,人家就是要以符合他本人意愿的事件“重塑”面貌出现……丁玲、唐弢等前辈生前都有过深刻的公开感叹。我写过一篇紧急呼吁书性质的短文《令人忧心的“伪‘史料’”》,二三十年前在《人民日报》副刊《大地》发表后,曾被樊骏几乎全文引用于他的一部重要著作中,这部著作早已成为各大学文科尤其是中国现当代文学这个学科硕士博士的必读书。 樊骏在引用拙文《令人忧心的“伪‘史料’”》一文时,他说我把大量的造假回忆文章定性为“伪‘史料’”,稍嫌苛刻。但,二三十年后,我仍然不改变我当年的“莽撞”。不管是有意的制造假相还是无心的回忆差错,导致“史实的真面貌”大受损害的恶果,就一定会给学科带来灾难!我们的青年学子尤其是中学生、大学生,如果不具备分辨真假“历史”的能力,相信了一些“伪‘史料’”,把大量的虚构、造假的自我鼓吹和宣扬,当作可信文献,就让严谨的学者简直不敢去设想再往后几十上百年的学科现实…… 以上这些“杞人忧天”的话,也许全是老生常谈。当得知我这二十多年来一直定期阅读的《绿土》学术月报要结集印行所刊文章分类汇编,即分三部出版《那时文人》、《那时书刊》和《那时信札》的消息时,我以上忧虑重重的心思有所缓解。这真是一桩“我们学科”的好消息:又有一个系列的研究中国现当代文学“史实真貌”图书公开出版,可以丰富我们的学科建设,给这个学科带来一股清新的学术气息。 我大学毕业就留校担任中国现当代文学的专任教职,稍后有二十五年在出版社谋食也主要组编中国现当代文学的书稿,再后又回归大学中国现当代文学教职。这就是说,我一直在中国现当代文学这个学科领域做工,而且做的是苦工,自然是苦中有乐,否则早就“跳槽”了。《绿土》已经出版的近三百期,我现在还集中收存着的有二百三四十期吧。缺存的几十期,应该是我放在别处了。 我爱读《绿土》,就因为这个学术月报上发表的文章都具有“可读性”,每个月拿到新的一期,总是把两个A3版面的文章遍读后再重读自己更感兴趣的。这些文章,大多没有空泛的论说,是努力把言说范围内的“文事”说清楚了,就结束。这就是好文章呀!把好文章结集出书,更宜于阅读、传播。“那时”,用一个普通的词汇道出了这三部书讲的全是过往的值得言说的经典话题。“书刊”,其实就是指老旧的书、报、刊等印品。几十上百年前的印品,这些发黄甚或已变得一触即碎的纸质出版物如今已是“一纸难求”了。但上面的文章,都是前贤的心血,值得我们细加探究。“信札”,更是一个遥远的记忆。今天网络普及,手机微信交流、电脑伊妹儿来往,使得纸质的“信札”瞬间变成过往乃至“过时”。估计已经没有人再用毛笔写一封信札,装进信封,写上受信人地址和姓名,再贴上邮票投进街边绿色邮筒或送交邮局寄走,而后就翘首盼望着对方的回信了。但是我们这个学科,所有参与过建设的好几代前贤,他们留下的难以计数的“信札”在受到珍视的同时,也在不断地被毁弃、被淹没甚至被埋葬。只有在实施“学问乃天下公器”境界的学人这里,他们见过的“信札”,再经过他们的考究,而后公布出来的他们的考究成果,又成了学科的财富。《那时信札》中所收各文,都是值得细品的书信类文献的考究心得。 在动手写这篇小文之前,翻了一遍我珍存的一大包《绿土》,其中有一封“信札”,是《绿土》首任编辑葛玲良写在“上海市虹口区图书馆”绿色字样纸笺上,言及《绿土》编入《虹口文化》两个月试行出版,却因为“两份刊物的读者层次”有别,最终“为了解决这个矛盾,经过协调,馆里决定针对《绿土》的特定读者,出版特刊”。这应该就是A3正反两个版面的《绿土》持续印行的又一次决定。编辑出版内行都知道一个常识:并不是编者决定刊物的性质,而是刊物的性质决定了编者必须只能选用哪一类的文章。 《绿土》一月一期从不间断地出版了二十多年,如今又更进一步地升华,分类选辑公开出版三部文章汇编,就表明办报方向的成功。 谨此为序。 二〇二四年六月二十日晨 Continue reading
-
强人工智能愿景:基本假设与框架
原文作者:Dario Amodei 机器翻译:Copilot October 2024 我经常谈论强大人工智能的风险。我担任CEO的公司Anthropic,致力于研究如何减少这些风险。尽管如此,人们有时认为我是一位悲观者,认为人工智能主要是有害的。我并不这么认为。事实上,我关注风险是因为它们是实现根本性积极未来的唯一障碍。我认为大多数人低估了人工智能的潜在好处和风险。 在这篇文章中,我试图勾画出如果一切顺利的话,强大人工智能可能带来的美好前景。当然,没人能确定或精确地预测未来,而强大人工智能的影响可能比过去的技术变革更加不可预测,所以这一切难免会是猜测。但我至少希望这些猜测是有教育意义和有用的,即使大部分细节最终是错误的,我也希望能捕捉到将要发生的事情的味道。我包括了很多细节,主要是因为我认为具体的愿景比高度谨慎和抽象的愿景更能推进讨论。 首先,我想简要解释一下为什么我和Anthropic很少谈论强大人工智能的好处,以及为什么我们可能会继续主要讨论风险。特别是,我做出这种选择的原因有: 最大化杠杆作用。AI 技术的基本发展及其许多(但不是全部)好处似乎是不可避免的(除非风险让一切脱轨),并且基本上是由强大的市场力量驱动的。另一方面,风险不是预定的,我们的行动可以极大地改变其可能性。 避免宣传的印象。AI 公司谈论 AI 的所有惊人好处可能会像宣传者一样,或者好像他们试图分散对缺点的注意力。我还认为,作为原则问题,花太多时间“谈论你的书”对你的灵魂有害。 避免宏伟。我经常对许多 AI 风险公众人物(更不用说 AI 公司领导人)谈论 AGI 时代后的世界感到反感,好像他们的使命是单枪匹马地带领人民走向救赎。我认为将公司视为单方面塑造世界是危险的,将实际的技术目标视为基本上是宗教术语是危险的。 避免“科幻”包袱。尽管我认为大多数人低估了强大的 AI 的上行空间,但那些讨论激进 AI 未来的小社区通常以过于“科幻”的语调(例如,上传的思想、太空探索或普遍的赛博朋克氛围)进行讨论)。我认为这会导致人们不那么认真地对待这些说法,并使他们带有某种不现实的色彩。明确指出,问题不是所描述的技术是否可能或可能(主文章对此进行了详细讨论)——更重要的是,这种“氛围”隐含地带来了大量的文化包袱和对什么样的未来是可以接受的、各种社会问题将如何演变等未曾表述的假设。结果往往看起来像是某个小众文化的幻想,而对大多数人来说令人反感。 尽管存在上述所有问题,我仍然认为讨论强大人工智能可以带来的美好世界非常重要,同时尽量避免这些陷阱。事实上,我认为拥有一个真正鼓舞人心的未来愿景至关重要,而不仅仅是灭火计划。许多强大人工智能的影响是对抗性或危险的,但最终,我们必须有我们所争取的东西,有一种积极的结果,使每个人的生活更美好,有一个能够团结人们超越争吵并迎接挑战的目标。恐惧是一种激励因素,但还不够:我们还需要希望。强大人工智能的正面应用清单非常长(包括机器人技术、制造业、能源等),但我要集中讨论一些对改善人类生活质量最有潜力的领域。我最兴奋的五类是: 我的预测从大多数标准来看会是激进的(除了科幻“奇点”愿景),但我是真诚的。所有这些说法很可能都是错误的(重申我之前的观点),但我至少试图在不同领域的进展可能加速的半分析评估中奠定我的观点。我有幸在生物学和神经科学方面有专业经验,而我在经济发展领域是一个受过良好教育的业余爱好者,但我相信我会犯很多错误。写这篇文章让我意识到,召集一个领域专家小组(包括生物学、经济学、国际关系等)来写一个更好、更全面的版本是有价值的。最好将我的努力视为该小组的起点。 基本假设和框架 为了使这篇文章更加精确和有依据,明确我们所说的强大人工智能以及它的到来时间非常有帮助。我认为这种强大的人工智能可能在2026年出现,但也有可能需要更长时间。 在这篇文章中,我假设它会很快到来,并关注它出现后5-10年的情况。我假设这种系统的定义、能力以及它如何交互,尽管对这些方面存在争议。 我心目中的强大人工智能是一个 AI 模型,可能在形式上类似于今天的 LLM,尽管它可能基于不同的架构,可能涉及多个交互模型,并且可能以不同的方式训练,具有以下特性: 在纯粹智力方面,它在大多数相关领域(例如生物学、编程、数学、工程、写作等)比诺贝尔奖得主更聪明。这意味着它可以证明未解决的数学定理,写出极好的小说,从头开始编写复杂的代码库等。 除了作为一个“智能对话对象”,它还具有人类虚拟工作所需的所有“接口”,包括文本、音频、视频、鼠标和键盘控制,以及互联网接入。它可以通过这些接口执行任何操作、通信或远程操作,包括在互联网上采取行动、向人类发出或接受指令、订购材料、指导实验、观看视频、制作视频等。而且,它在这些任务上的技能再次超过了世界上最有能力的人类。 它不仅是被动回答问题;相反,它可以被分配需要数小时、数天或数周完成的任务,然后像一名聪明的员工一样自主完成这些任务,必要时再寻求澄清。 它没有实体(除了在计算机屏幕上存在),但可以通过计算机控制现有的物理工具、机器人或实验设备;理论上,它甚至可以为自己设计机器人或设备来使用。 用于训练模型的资源可以重新用于运行数百万个实例(预计到2027年,这与集群规模匹配),并且该模型可以以大约10倍至100倍于人类的速度吸收信息和生成操作。不过,它可能会受到物理世界或其交互软件的响应时间的限制。 每一个数百万个实例中的每一个都可以独立地执行不相关的任务,或者在需要时可以像人类合作一样一起工作,也许不同的子群体可以微调得特别擅长某些任务。 我们可以将其总结为“数据中心中的天才国度”。 显然,这样一个实体能够非常快地解决非常困难的问题,但弄清楚有多快并不简单。对我来说,两种“极端”观点都是错误的。首先,你可能会认为世界会在秒或天的时间尺度上立即被改变(“奇点”),因为优越的智能不断自我增强,几乎立即解决每一个科学、工程和操作任务。问题在于存在真实的物理和实践限制,例如构建硬件或进行生物实验。即使是一个新的天才国度也会遇到这些限制。智能可能非常强大,但它不是魔法仙尘。 其次,相反,你可能认为技术进步受现实世界数据或社会因素的饱和或速率限制,而且比人类更聪明的智能几乎不会增加什么6。对我来说,这同样不可信——我可以想到数百个科学甚至社会问题,在这些问题上,一大群聪明人会大大加快进展,尤其是如果他们不仅限于分析,而且可以在现实世界中实现事情(我们的假设天才国度可以这样做,包括通过指导或协助人类团队)。 我认为,真实情况可能是这两种极端图景的一种混合体,具体细节根据任务和领域的不同而有所变化。我相信我们需要新的框架来以一种建设性的方式思考这些细节。 经济学家经常谈论“生产要素”:例如劳动力、土地和资本。“劳动力/土地/资本的边际回报”这个短语捕捉到的思想是,在特定情况下,某个要素可能是也可能不是限制因素——例如,一个空军需要既需要飞机又需要飞行员,如果没有飞机,雇佣更多的飞行员并没有多大帮助。 我相信在AI时代,我们应该谈论“智能的边际回报”,并试图找出与智能互补的其他因素以及当智能非常高时成为限制因素的那些因素。我们不习惯以这种方式思考——问“变得更聪明对这项任务有多大帮助,以及在什么时间尺度上?”——但这似乎是概念化一个拥有非常强大人工智能的世界的正确方式。 我猜测的限制或补充智能的因素列表包括: 外界的速度。智能体需要在世界上互动地操作以完成任务并学习8。但是世界的运行速度是有限的。细胞和动物以固定速度运行,因此对它们进行实验需要一定的时间,这可能是不可压缩的。同样的道理适用于硬件、材料科学、与人沟通的任何事物,甚至是我们现有的软件基础设施。此外,在科学中,通常需要一系列实验,每个实验从上一个实验中学习或建立。所有这些意味着,完成一个重大项目——例如开发癌症治疗方法的速度——可能有一个不可压缩的最小值,即使随着智能的增加,这个最小值也不会进一步减少。 对数据的需求。有时缺乏原始数据,没有这些数据,更多的智能也无济于事。今天的粒子物理学家非常聪明,已经开发出了一系列理论,但由于粒子加速器数据非常有限,无法在它们之间做出选择。除了可能加快建造更大的加速器外,不清楚他们是否会显著提高。 内在复杂性。有些事情本质上是不可预测或混沌的,即使是最强大的AI也无法比今天的人类或计算机更好地预测或解开它们。例如,即使是非常强大的AI在一般情况下也只能在混沌系统(如三体问题)中向前预测一点9,而与今天的人类和计算机相比。 人类的限制。许多事情不能在不违反法律、不伤害人类或不扰乱社会的情况下完成。一个对齐的AI不会想要做这些事情(如果我们有一个不对齐的AI,我们又回到了讨论风险的问题)。许多社会结构效率低下甚至有害,但在尊重法律要求、临床试验的法律要求、人的行为习惯的改变或政府行为的限制下,很难改变。技术上成功但因法规或错误的恐惧而减少影响的例子包括核能、超音速飞行,甚至电梯。 物理法则。这是第一个观点的更严峻版本。有些物理定律似乎是不可打破的。不可能以超过光速旅行。布丁不会不搅动。芯片每平方厘米的晶体管数量有限,超过这个数量后会变得不可靠。计算需要一定的最小能量来擦除每个位,从而限制了世界上计算的密度。 在时间尺度上还有进一步的区分。在短期内难以克服的约束,长期来看可能会因智能而变得更具可塑性。例如,智能可以用来开发新的实验范式,使我们能够在体外学习以前需要活体动物实验才能实现的东西,或构建收集新数据所需的工具(例如更大的粒子加速器),或在道德限度内找到绕过人类限制的方法(例如,帮助改善临床试验系统,帮助创建新司法管辖区,使临床试验官僚作风减少,或通过改进科学本身,使人类临床试验变得不那么必要或更便宜)。 因此,我们应想象一种情景,其中智能最初受到其他生产要素的严重限制,但随着时间的推移,智能本身越来越多地绕过这些因素,即使它们永远不会完全消失(有些东西如物理定律是绝对的)10。关键问题在于这一切发生的速度及其顺序。 Continue reading
