AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登场

admin 2024-09-13 北京软文合集 102 次浏览 0个评论

　　来源：财联社

　　北京时间周五凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

　　OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推理任务而言，新模型代表着人工智能能力的崭新水平，因此值得将计数重置为1，给它一个有别于“GPT-4”系列的全新名号。

　　推理大模型的特点，就是AI会在回答之前花更多时间进行思考，就像人类思考解决问题的过程一样。以往的大模型，背后的逻辑是通过学习大量数据集中的模式，来预测单词生成的序列，严格来说并不是真正理解提问。

（明显能感知到的“思考”过程，来源：OpenAI）

　　认知将跃升至“理科博士生水准”

　　OpenAI曾解释过，2023年发布的GPT-4类似于高中生的智能水平，而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中关键的一步。

　　相较于GPT-4o等现有的大模型，OpenAI o1能够解决更加困难的推理问题，同时改善过往模型中存在的机制性缺陷。

　　举例而言，这个新模型能够数清楚strawberry里到底有几个“r”。

　　同时AI在解答编程问题时也会更有条理，在着手写代码前，把整个回答的流程全部思考完一遍，再动手输出代码。

　　例如在预设条件的写诗任务（例如第二句的最后一个单词需要以i收尾）中，“拿起笔就写”的GPT-4o的确给出了回答，但往往只会满足了一部分条件，同时不会自我纠正。这意味着AI必须在第一次生成时就能碰上正确的答案，否则就一定会出错。但在o1模型中，AI会不断试错并打磨答案，从而显著提高生成结果的准确率和质量。

　　有趣的是，点开AI思考的过程，还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认，这里展示的并不是原始的思维链，而是“模型生成的摘要”，公司也坦率承认这里有保持“竞争优势”的因素。

　　OpenAI的研究负责人Jerry Tworek透露，o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式，而o1的训练旨在让其独立解决问题。在强化学习的过程中，使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题，就像人类习得拆解、分析问题的方式一样。

　　根据测试，o1模型在国际数学奥林匹克的资格考试中，能够拿到83%的分数，而GPT-4o只能正确解决13%的问题。而在编程能力比赛Codeforces中，o1模型拿到89%百分位的成绩，而GPT-4o只有11%。