关于OpenAI渲染的Q*热点做一个面向产业界的初级“科普”

王兆洋苗正 ☉ 文来源：硅基立场 2023-12-03 @ 哈希力量选录

【人工摘要：它背后的思路早在1989年就有了，后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中，发明了DQN（深度Q网络）。】

1. 围观了OpenAI的权力游戏后，人们依然期待它背后的真相跟AI技术的恐怖突破有关，而不完全是一场过家家的权力闹剧。而Q*的传闻就这么及时地来了。

2. 路透社最早把它捅了出来。据这些报道描述，Q*在庞大的计算资源支持下可以解决一些数学问题，虽然仅有小学生的水平，但OpenAI的人们认为会做数学就会威胁人类，OpenAI的技术团队也的确就此向董事会做了预警，而正是这封信导致董事会对Altman突然下手。

3. 在原本以为尘埃落定后，这个只有一个代号的技术再次引起热烈讨论。这个神秘技术究竟是什么？OpenAI同样没有对此做任何解释。对技术细节不熟悉的人们乐于想象Q*会成为AI毁灭人类的重要一步。但其实你要是真想关心这技术本身，它可能并不复杂。

4. 简单来说，Q*=Q+A*。我们拆开来，先解释“Q”。人工智能领域跟大写Q沾边的，本质都是Q学习，指的是在训练的过程中，告诉智能体下一步怎么选才能跟历史最高奖励值相同。

5. 打个比方，Q学习和智能体就像是一支球队的分析师和教练，分析师辅佐教练，教练真正负责指导球队。教练的决策是要反馈到环境中才能得到奖励值，而分析师只记录奖励值，因此不需要对环境建模。

6. 它背后的思路早在1989年就有了，后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中，发明了DQN（深度Q网络）。

7. 它也一直不是一个热门的技术。因为随着今天动辄几十亿几百亿参数的大模型流行，教练结合现实环境的反应能力异常强大，分析师就显得添乱了，Q学习看起来增加复杂性，降低鲁棒性，没什么帮助。

8. 然而Q学习体现的思想却一直在吸引着研究者，因为它和计算机的运行本质接近：它就像是高配版弗洛伊德求边长，而现代计算机中，处理器所使用的核心原理就是弗洛伊德算法，通过与历史最优值比对，求得两点之间最短的路径。

9. Q说完了，再聊聊*背后的A*算法。这是一种启发式算法，我讲个笑话能帮你更好理解它：有一天A决定考考B，问到“请快速求出1928749189571*1982379176的乘积”，B立马就回答A说：“32”。这个A听了就很纳闷，这么大的两个数相乘，不可能答案是两位数。B反问A：“你就说快不快？”。

10. 看起来离谱，但这就是A*这种启发式算法在做的事，它的本质就是估算，先通过启发式算法估算一个大概的值，当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历，如果怎么都没办法求解那就重新估值，直到开始出现解。如此反复，最终得出最佳解。这样做的目的也很清楚，在效率和正解之间只能选择一个，那就选效率。

11. 于是问题也出现，它的答案对，耗时比较长，放在个人设备上就会导致内存溢出，产生系统问题，比如蓝屏。过往A*算法最典型的应用就是网络游戏中角色寻路。一些大型游戏中，角色在寻路开始的那一刹那出现卡顿，就是因为A*算法。

12. Q和A*讲完了，它们都很简单。而Q*最有可能的样子就是，利用Q学习快速找到接近最优解的估值，再利用A*算法在小范围内求解，省去了大量没有意义的计算过程，以此达到快速求得最佳解的效果。两者取长补短，即节省算力、节省内存，并得到最佳解。当然OpenAI具体怎么做，还得等公开论文（如果能等到的话）。

13. 所以你会发现关于Q*的信息，其实很容易就讲清楚。而且，与它到底是什么相比，其实它所体现出来的趋势更加值得讨论：那就是当下人工智能发展中求解的过程比求解更有意义。

14. OpenAI再次提出了Q*，让这老概念有了新意义，毕竟Agent、GPT Store、Q*等都是OpenAI一手捧红的，人们有理由相信，在Q和A这两个早就存在的算法思路里，OpenAI能再次创造奇迹。

15. 为什么人们指望OpenAI创造Q计算的奇迹，而不是依赖最早提出它的学术界？因为OpenAI垄断了算力。现在，算力资源的严重不平等是一个突出的问题，尤其是学术界和企业界之间。9月底，在一场活动结束后我遇到斯坦福大学的李飞飞，问了她一个问题：今天她最关心的AI问题是什么？她回答我说是学界和Google、OpenAI这样的企业之间的算力不匹配。这导致研究者无法复现或检视企业们开发的模型，作为一个一向是研究推动的领域，这种不平衡将会影响很大——学界显然更加倾向于推动安全相关的研究，这让模型的安全性风险增加。

16. 而第二天我有机会和OpenAI的Jason Wei交流，我把同样的问题也抛给了他。他是OpenAI的明星研究员，这个岗位理应是学界研究和业界实践的连接者，但他基本没有对李飞飞的担忧表现出共情。他给我的回答基本是，没有算力他们就去做那些不需要算力的研究好了。

17. OpenAI们越来越不在意学术界对新算法带来的帮助和参与讨论的必要。OpenAI的Jason Wei们的研究，李飞飞们根本无法在实际环境里检测和基于它拓展研究，甚至他们自己的理论研究也越来越没有足够算力来真的落地，只能停留在论文里。于是无论是最热门的技术路线还是风险问题的主导权，彻底由OpenAI们掌握。

18. 所以，OpenAI成了最终将Q*发扬光大，甚至成为出圈跨界热门话题的搅局者：它随便一个动作，就能引爆一个概念，引起人们的广泛猜测，直指AI的超级能力和“毁灭人类”的可能。而最关键的真实信息和概念本质，却只会以各种“谜语”形式展示出来，并且最终也大概率不会有论文出现。

19. 因此，Q*被引爆的背后，是OpenAI在技术话语权上，对学术界的无情碾压。马斯克老师似乎非常不喜欢今天的OpenAI，但他对学术界的看法却与OpenAI的主流派如出一辙——他认为99%的学术论文毫无意义。OpenAI没人这么说过，但他们就是这么做的。

（原文标题：《OpenAI的Q*没有毁灭人类，却打脸了学术界》）

来源链接文末附或略。内容并不代表投资建议。

本文选录后固定可引用URL链接

http://www.haxililiang.com/xueyuan/baike/36208.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库

关于OpenAI渲染的Q*热点 做一个面向产业界的初级“科普”

关于OpenAI渲染的Q*热点做一个面向产业界的初级“科普”