新闻中心

Gemini 3.0发布：从“工具的工具”到“主动代理”

2025-11-22 10:17

当地时间周二，Alphabet旗下谷歌宣布发布最新模型人工智能（AI）Gemini 3。该模型被业界称为“全能选手”，拥有数百万个上下文窗口、前沿的多模态理解、颠覆性的代理开发平台和全面的技术支持。它不仅达到了超越前代产品的一代水平，还在多项关键基准测试中对标甚至超越了GPT-5.1、Claude 4.5等竞品，标志着AI进化从“工具辅助”到“主动代理”的飞跃。据悉，Gemini 3将集成到Gemini应用程序、谷歌的AI人工智能产品和AI概述以及企业级产品中。从周二开始，该模型可用于选择 mga 订户，并将在未来几周内更广泛地使用。在 2025 年 11 月的财报电话会议上，谷歌首席执行官 Sundar Pichai 确认了 Gemini 3 计划的发布。他强调了一个这次：“切割模型的进一步发展需要更多的时间。我们不仅要追求变化的速度，还要确保能力的重大突破。”这种“慢工出细活”的做法在Gemini 3产品的形态上得到了充分体现——这不是对2.5 Pro的简单修复，而是从架构、生态能力的全面重构。推理是人工智能解决复杂问题的核心。 Gemini 3在该领域实现了双重突破：基础性能的全面提升和推理模式的产品创新。在基础推理能力方面，Gemini 3 Pro在多项Benchmark基准测试中创下新高：在没有Humanity工具的情况下，GPQA Diamond（研究生级推理）测试准确率达到91.9%（多步（真相准确率）以72.1%的成绩领先业界。这些数据意味着在需要深度思考的场景下，例如模型的可靠性达到了新的水平）作为科学研究和专业咨询。例如，它可以独立完成托卡马克装置的视觉编码，同时创作诠释融合本质的诗歌，实现理性与理智的结合。在多模态推理方面，Gemini 3 也表现出色，在 MMMU-Pro 测试中得分为 81%，在 video-mmmu 测试中得分为 87.6%。这意味着该模型可以高度可靠地处理包括科学和数学在内的广泛领域的复杂问题。除了标准版之外，谷歌还推出了Gemini 3 Deep Think增强推理模式，通过“思维签名”和“思维层面”两大创新将思维链技术商业化：思维签名将在API返回中包含加密的推理过程，确保逻辑不偏离链任务；思维水平允许开发人员根据情况调整任务的复杂程度导致任务的复杂性。配置“思考时间”模型，实现速度与准确度的平衡。数据显示，改进后的推理模式在人类最终测试中取得了41.0%的成绩，在GPQA钻石测试中取得了93.8%的成绩。在ARC-IGI-2测试中，深度思考模式取得了前所未有的45.1%的分数，展示了其解决新挑战的能力。谷歌表示，该模式正在接受进一步的安全测试，并将在未来几周内向 Google AI Ultra 订阅者开放。长上下文处理是人工智能从“短对话”转向“复杂任务”的关键。 Gemini 3.0 Pro最令人惊奇的功能是它支持高达100万个token的上下文长度（大约相当于700页英文书籍或2小时4K视频）。这个数字超过了当前主要型号 - GPT -4 Turbo 的 128K 代币和 Claude 3.5 的 200K 代币，以及 Google 自己的 Gemini 2（128,000 代币），同时保持了信息储备合格率达90%以上。在多模态方面，Gemini系列自诞生之日起就将“原生多模态”作为主要优势。 Gemini 3将这一优势推向了新的高度，实现了从“多模态处理”到“多模态关联理解”的跨越。在权威基准测试中，Gemini 3 Pro的多模态能力领先81%，而video-mmmu（视频理解）则以87.6%的成绩重新定义了行业标准，使其成为“全球最先进的多模态理解模型”。如果说推理和多模态是 Gemini 3 的“大脑”，那么编码和代理能力就是它的“双手”。谷歌通过“Agentic Coding”和“Vibe Coding”两个主要变化彻底重塑了开发者与AI之间的协作模式。在代码生成领域，Gemini 3被Google称为“迄今为止开发的最好的vibe编码和agent编码模型”。在 LiveCodebench Pro（接近 ICPC 的竞争性编程测试/CodeForces难度），该模型的ELO分数为2439，远远超过GPT-5.1的2243和Claude 4.5的1418，接近专业程序员的水平。代理能力的跳跃是Gemini 3最具颠覆性的更新，模型不再是简单响应指令的工具，而是可以独立规划、分解任务、调用工具的“数字代理”。在Terminal-Bench 2.0测试（终端操作能力）中，以54.2%的成绩表现出了较强的工具使用能力。在Vending-Bench 2测试（长期规划能力）中，Gemini 3 Pro通过一致的决策以及使用工具模拟自动售货机业务的年度运营周期，获得了较高的回报，在测试中排名第一。这种基于范围的规划能力使得AI能够独立完成复杂的工作流程，例如自动爬取数据、分析趋势、生成报告以及消除可视化界面，而无需人工干预。到为了实现代理的功能，谷歌同时推出了新的开发平台Google Antigravity，它允许开发人员在更高的抽象级别上执行面向任务的编程。 Google 实验室和 Gemini 副总裁 Josh Woodward 表示，Gemini 3 是故事中最适合“环境编程”的模型。那就是 Google。大气编程是指一个快速新兴的人工智能工具市场，它允许软件开发人员通过快速的单词生成代码。谷歌表示，新模型将支持“生成界面”，以类似于数字杂志的方式显示一些答案。例如，新模型被要求在梵高的生活背景下解释他的作品，系统为每幅画提供了丰富的插图和丰富多彩的解释。在Gemini 3.0模型发布之前，网上已经有很多针对该模型的测试。测试结果表明，该模型显示了该行业发展的崩溃阿尔字段。加拿大劳雷尔大学历史学教授 Mark Humphries 通过 Google AI Studio 测试了 Gemi 怀疑的 3.0 模式，发现它在识别 18 世纪手写文档方面接近完美，字符错误率仅为 0.56%，错误率为 1.22%。相比上一代Gemini 2.5 Pro，提升50%-70%，达到人类水平。测试结果显示，上一代Gemini 2.5 Pro在这些复杂文档中的字符错误率约为4%，几乎相当于专业人类转录员的水平。新模型将字符错误率降低至0.56%，单词错误率降低至1.22%，达到人类水平的性能标准。更令人瞩目的是模型所展现的推理能力。汉弗莱斯发现该模型可以自发地执行顺序符号推理，例如将 18 世纪商品中的“145”推断为“14 磅 5 盎司”汉特的分类账，这不仅是对文本的认可，也是对产生这些记录的经济和文化体系的理解。对于谷歌来说，Gemini 3.0的发布具有战略意义。自2022年底发布ChATGPT以来，谷歌一度被认为赢得AI竞争，内部也发出了“红色警报”。 Business Insider 援引内部人士的话称，新模型可能会让谷歌有机会夺取领先地位，特别是在 OpenAI 的 Chatgpt-5 未能立即产生重大影响之后。尽管谷歌在人工智能竞赛中起步缓慢，但它仍然拥有像 OpenAi 这样的初创公司所不具备的许多优势：建造了专用芯片；在线搜索市场份额约 90%；以及Gmail、Google Docs等数百万用户，现在这些产品逐渐注入了AI功能。谷歌上个月还公布了创纪录的收入，并计划在人工智能领域投资数十亿美元。对于企业和开发者来说，Gemini 3的价值不仅仅在于其强大的上限能力，还在于它提供了一个“可扩展、可定制和可实施”的智能基础。通过完善生态系统，我们有理由相信Gemini 3将加速AI从“实验室”走向“生产线”，最终渗透到每个人的生活和工作中。对于行业来说，Gemini 3的发布并不是竞争的结束，而是一个新的起点。这将倒逼竞争对手加速技术创新，推动AI行业在推理能力、多模态融合、智能体开发等方面全面发展。对于用户和开发者来说，Gemini 3不仅带来了更强大的工具，还带来了新的工作和交互方式。（文|Leo张托布杂记，作者|张慎宇，编辑|盖宏达）特别声明：以上内容（如有则包括照片或视频）由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。注：以上内容（包括图片和视频，如有）由网易HAO用户上传发布，网易HAO为社交媒体平台，仅提供信息存储服务。

新闻中心

Gemini 3.0发布：从“工具的工具”到“主动代理”

2025-11-22 10:17

相关推荐

新闻中心

联系我们

产品中心

新闻中心

大发888手机版官网下载