接近理科博士生水准!OpenAI放大招,发布全新AI大模型——o1模型

来源:证券时报网作者:周春媚

北京时间9月13日凌晨,OpenAI重磅发布全新AI大模型——o1模型。

据OpenAI官网介绍,这一模型“旨在花更多时间思考后再作出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题”。不过,今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型,而且还只是预览版——o1-preview(o1预览版)。

事实上,此前外界曾流传OpenAI正在研发新模型“草莓”和“猎户座”,其中“草莓”具有更强的推理能力、擅长解决复杂的数理逻辑问题,而“猎户座”则将基于“草莓”模型的能力,是“ChatGPT”的超强继任模型。

OpenAI首席执行官山姆·奥特曼在其个人社交平台表示,“虽然o1的表现仍然存在缺陷,不过你在第一次使用它的时候仍然会感到震撼。”

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同,但功能、推理、性能等方面与外界揣测的基本一致。据了解,o1的推理模式的特别之处在于,在回答用户问题之前,o1会进入拟人化思考模式,将问题分解成更小的步骤,逐一解决,然后生成一个较长的内部思维链,这一推理模式也使得回答的内容更加准确。

“在我们的测试中,下一个模型(o1模型)更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。”OpenAI对o1模型的介绍表示。

在数学竞赛中,以AIME2024为例,GPT-4o平均只能解决12%的问题,而o1平均能解决74%的问题,若采用64个样本的共识,解决率能达到83%。o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列,并在物理、生物和化学问题(GPQA)基准测试中超越人类博士级准确度。

OpenAI表示,对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI将计数器重置为1,并将该系列命名为OpenAIo1。

另外,OpenAI在过去一段时间一直被质疑因加快产业开发而降低了对模型安全的重视,团队中多名安全团队的人员也接二连三离职。对于模型的安全问题,OpenAI表示,在开发这些新模型的过程中,公司提出了一种新的安全训练方法,利用模型的推理能力,使它们遵守安全和协调准则,能够通过在上下文中推理安全规则,并且更有效地应用这些安全规则。

“我们衡量安全性的一种方法是测试当用户试图绕过安全规则(称为‘越狱’)时,我们的模型如何继续遵循安全规则。在我们最严格的越狱测试之一中,GPT-4o得分为22(0-100分制),而我们的o1预览模型得分为84。”OpenAI介绍称。

适用对象方面,拥有增强的推理能力的o1模型更适合于解决科学、编码、数学和类似领域的复杂问题。例如,医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

除了o1系列模型外,OpenAI这次还一并发布了一个mini版OpenAIo1-mini模型。OpenAI在官网中给出了preview和mini版的不同定义,“为了给开发者提供更高效的解决方案,我们也发布了OpenAIo1-mini,这是一个尤其擅长编程的更快、更便宜的推理模型。”据了解,作为一款较小的模型,o1-mini比o1-preview便宜80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。

至于新模型的使用方面,OpenAI称,从发布之日起,ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择。不过,发送消息的次数目前还存在限制。o1-preview每周发送消息次数限制为30条消息,o1-mini则为50条消息。OpenAI称正在努力提高这些发送次数,并使ChatGPT能够根据给定的提示自动选择正确的模型。

价格方面,API的价格上,o1-preview每百万输入15美元,每百万输出60美元。与之对比,GPT4o每百万输入和每百万输出分别是5美元和15美元,o1-preview价格是GPT4o的3倍。o1-mini会便宜一些,每百万输入为3美元,每百万输出为12美元。

关于未来的计划,OpenAI表示计划向所有ChatGPTFree用户提供o1-mini访问权限。同时,除了o1模型宣布的这些更新之外,OpenAI还希望添加浏览、文件和图片上传等功能,并计划继续开发和发布GPT系列中的模型。

主题测试文章,只做测试使用。发布者:财华网,转转请注明出处:https://www.yifufu.com/13/06/5390.html

(0)
财华网的头像财华网
上一篇 2024 年 9 月 13 日
下一篇 2024 年 9 月 13 日

相关推荐

  • 7月新成立债基规模超300亿元 收益稳定风险低受投资者青睐

    本报记者 方凌晨 7月29日,中欧基金发布旗下中欧中债3—5年政策性金融债指数证券投资基金基金份额发售公告,又一只债券基金“在路上”。截至7月29日,7月份以来新成立债券基金已有20只(仅统计主代码),募集规模共计310.36亿元,在全部新成立基金募集规模中占比达66.74%。 今年以来,债券基金规模与份额持续攀升。受访业内人士认为,在当前市场环境下,债券基…

    财经 2024 年 7 月 30 日
    3600
  • 私募对赌真相:赢了官司,赢不了收益?

    文|《财经》特约撰稿人 汤圆圆 编辑|杨秀红 与其争论IPO对赌条款的有效性及回购诉讼的危害性,探讨如何让投资机构从“债主”回归经济“孵化器”的角色或许是更切实的事 今年以来,因触发对赌协议引起的诉讼案频频出现,而这些诉讼,也让创业者和投资机构站在了对立面。 2024年9月初,国产GPU(图形处理单元)独角兽象帝先计算技术(重庆)有限公司(下称“象帝先”)宣…

    财经 3天前
    1000
  • 2024年7月社会消费品零售总额增长2.7% 1-7月同比增长3.5%

    7月份,社会消费品零售总额37757亿元,同比增长2.7%。其中,除汽车以外的消费品零售额33959亿元,增长3.6%。1—7月份,社会消费品零售总额273726亿元,同比增长3.5%。其中,除汽车以外的消费品零售额246990亿元,增长4.0%。 按经营单位所在地分,7月份,城镇消费品零售额32691亿元,同比增长2.4%;乡村消费品零售额5066亿元,增…

    财经 2024 年 8 月 15 日
    3300
  • 耐心资本持仓逼近历史峰值 高频减持式微 净减持额创2010年以来新低

    今年5月以来,A股市场震荡走弱,上证指数重回3000点下方。在不少投资者陷入迷茫时刻,以中央汇金、证金公司为主的“国家队”和以社保基金、养老保险基金、保险资金等为主的耐心资本频频发力,为市场的稳定贡献力量。 宽基ETF积极加仓 一直以来,以中央汇金、证金公司、国家外汇局旗下投资公司为主的“国家队”,是呵护市场的中坚力量。社保基金、养老保险基金、险资等机构因投…

    财经 2024 年 9 月 19 日
    2900
  • 对外开放跑出“加速度” 自贸“朋友圈”越来越大

    “下一步,商务部将与国家发展改革委一道,会同相关部门抓紧修订全国版外资准入负面清单。”商务部新闻发言人何亚东此前表示。据介绍,即将发布的新版外资准入负面清单将实现全国范围内制造业限制措施“清零”。 “负面清单的‘瘦身’和完善,反映出我国推动高水平开放和稳步扩大制度型开放的决心。”聂平香说。 除了外资准入负面清单,我国还出台实施了自贸试验区跨境服务贸易负面清单…

    财经 2024 年 8 月 30 日
    2400

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信