【AI资讯汇总】2024年12月第四周

目录

OpenAI发布o3:AI 推理能力的重大突破,得分高达 87.5%

阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview

OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流

OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致


OpenAI发布o3:AI 推理能力的重大突破,得分高达 87.5%

https://www.aibase.com/zh/news/14162

关键看点

  1. OpenAI o3发布: OpenAI 发布了最新的 o-Model 推理系列模型——OpenAI o3,它在数学和科学推理方面取得了显著进步。
  2. 推理能力提升: o3 在 ARC AGI 基准测试中的得分高达 87.5%,显示出推理能力的大幅提升。
  3. 性能表现: 在高级数学测试中,o3 的成功率达到 96.7%,科学推理准确率提升了10%。
  4. 混合推理框架: o3 结合了神经符号学习和概率逻辑,能够分解问题并优化答案。
  5. 应用潜力: o3 在教育、医疗和软件开发等多个领域具有广泛的应用潜力。

详情

  • 推理能力: o3 旨在提升处理结构化思维需求的推理能力,尤其在数学和科学领域。它在推理基准测试 ARC AGI 中的得分从之前模型的32% 跃升至87%。
  • 数学和科学测试: 在高级数学测试中,o3 的成功率提升了近40%,达到96.7%。在科学推理方面,o3 解决博士级科学问题的准确率提高了10%。
  • 代码理解和调试: o3 还展现出了理解和调试代码的能力,为软件开发提供了潜在的实用价值。
  • 混合推理框架: o3 采用了混合推理框架,结合了神经符号学习与概率逻辑,能够分解问题,简化复杂查询,并利用扩展记忆保持上下文信息。
  • 实际应用: o3 可以在教育领域帮助学生解决复杂问题,在医疗领域支持诊断过程,在软件开发中协助调试和生成代码。
  • OpenAI愿景: OpenAI 发布的视频展示了 o3 在物理、数学和伦理困境等领域的问题解决能力,体现了 OpenAI 开发能够跨越多种场景进行推理的模型的雄心。

链接

OpenAI发布o3:AI 推理能力的重大突破,得分高达 87.5%


阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview

关键看点

  1. Qwen开源QVQ模型: 阿里通义千问Qwen团队开源了其最新研发的多模态推理模型QVQ,这是人工智能在视觉理解和复杂问题解决能力方面的重要进展。
  2. 视觉推理能力提升: QVQ模型基于Qwen2-VL-72B构建,通过结合语言和视觉信息,提升了AI的推理能力,在MMMU评测中取得了70.3的高分。
  3. 性能提升: QVQ在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。
  4. 模型局限性: 尽管QVQ-72B-Preview表现出色,但团队也指出了模型存在的一些局限性,包括语言混合和代码切换问题、可能陷入循环逻辑模式、安全和伦理考虑以及性能和基准限制。
  5. 多步骤视觉推理挑战: 模型在多步骤视觉推理过程中可能会逐渐失去对图像内容的关注,导致幻觉。

详情

  • 模型优势: QVQ模型在视觉推理任务中展现出特别的优势,尤其是在需要复杂分析思维的领域。
  • 评估数据集: Qwen团队在四个数据集上对QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision和OlympiadBench,这些数据集旨在考察模型在视觉相关的综合理解和推理能力。
  • 模型表现: QVQ-72B-Preview在这些基准测试中表现出色,有效缩小了与领先模型之间的差距。
  • 应用示例与技术博客: Qwen团队提供了几个QVQ模型在视觉推理任务中的应用示例,并分享了技术博客的链接。
  • 模型推理代码示例: 团队还提供了模型推理的代码示例,以及如何使用魔搭API-Inference直接调用QVQ-72B-Preview模型的方法。
  • 魔搭平台支持: 魔搭平台的API-Inference为QVQ-72B-Preview模型提供了支持,用户可以通过API调用的方式直接使用该模型。

链接

阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview


OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流

关键看点

  1. ChatGPT新记忆功能: OpenAI 推出了 ChatGPT 的新记忆功能,允许 AI 在用户开启新对话时回忆起以往的交流内容。
  2. 用户控制: 用户可以通过设置面板管理自己的存储信息,包括删除特定记忆、清除过往对话记录或归档某些聊天记录。
  3. 隐私保护: 用户可以关闭记忆功能或使用临时聊天功能以确保对话的私密性。
  4. 个性化服务: 记忆功能旨在提升用户体验,使 ChatGPT 能够更加个性化地回应用户需求。
  5. 行业竞争: 谷歌也为聊天机器人 Gemini 增加了类似的记忆功能,目前仅对付费用户开放。

详情

  • 对话记忆能力: ChatGPT 的新记忆功能使其能够在不同的对话中提取和利用历史信息,提升对话的相关性和个性化。
  • 用户完全控制: 用户可以删除特定的记忆或从对话历史中删除过去的对话记录,也可以选择将某些对话进行归档。
  • 关闭记忆功能: 如果用户关闭记忆功能,这并不会清除已有的记忆,删除过去的对话也不会影响到助手从这些对话中形成的记忆。
  • 临时聊天功能: ChatGPT 提供了关闭记忆的选项,或可以选择使用临时聊天功能,以确保对话的私密性。
  • OpenAI和谷歌的目标: 这些记忆功能的推出反映了 AI 行业的一个更广泛目标,即将聊天机器人转变为真正的个人助手,通过不断学习并记住用户的偏好,自动调整其回应。
  • 谷歌的记忆功能: 谷歌的记忆功能允许用户告诉 AI 他们的偏好,例如最喜欢的美食类型,从而在后续对话中提供更精准的推荐。用户同样可以随时关闭这一功能,且谷歌强调不会使用存储的个人信息来训练其 AI 模型。

链接

OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流


OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致

关键看点

  1. OpenAI服务宕机: OpenAI 的 ChatGPT 和 Sora 等服务发生了长达4小时10分钟的宕机事件。
  2. 故障原因: 一个小的变更导致 Kubernetes (K8S) API 操作过载,造成服务瘫痪。
  3. 工程师困境: 控制面崩溃导致工程师无法访问,无法及时处理问题。
  4. 恢复过程: 通过缩小集群规模和增加资源等手段,最终恢复了服务。

详情

  • 事故发生时间: 太平洋标准时间下午3点12分,工程师们为收集 Kubernetes 控制面指标而部署了新的遥测服务。
  • 配置错误: 新服务的配置无意间过于广泛,导致每个集群中的每个节点同时执行资源密集型的 K8S API 操作,迅速造成 API 服务器的崩溃。
  • 服务瘫痪: 由于 DNS 功能依赖于控制面,服务之间无法相互联系,导致整个服务瘫痪。
  • 问题定位: 问题在3分钟内被定位,但由于工程师无法访问控制面进行服务回滚,形成了一个 “死循环” 局面。
  • 恢复措施: 工程师尝试缩小集群规模以减少 K8S 的 API 负载,并阻止对管理 K8S API 的访问,扩大 K8S API 服务器的资源配置。
  • 流量转移: 工程师将流量转移到已恢复或新增的健康集群中,以降低其他集群的负载。
  • 资源限制: 由于许多服务试图同时恢复,导致资源限制饱和,恢复过程需要额外的手动干预,部分集群恢复耗时较长。

链接

OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致