Google Gemini

Google Gemini 是 Google DeepMind 团队开发的一系列多模态大语言模型 (LLM)，旨在成为“世界模型”，用于理解和生成文本、图像、音频、视频及代码等多种信息。

自2023年12月发布 Gemini 1.0 以来，该系列已迭代至 Gemini 3 (2025年11月发布)，在推理、多模态理解和代码生成等能力上持续提升，并广泛应用于 Google 搜索、Workspace 办公套件和 Chrome 浏览器等产品中。

原生多模态理解

不同于后期拼接不同单模态模型，Gemini 从预训练阶段就统一处理文本、图像、音频和视频。它能理解手写公式、分析简笔画过程，并同时处理视频、图片和文字输入，对复杂内容的理解远超单一模态模型。

强大的推理与代码能力

Gemini Ultra 在 MMLU 测试中得分超越人类专家，Gemini 3 在“人类终极考试”中创下新高，证明其具备顶尖的通用推理能力。同时，它精通 Python、Java、C++ 等多种编程语言，可作为核心引擎驱动 AlphaCode 2 等高级编程系统，解决复杂的算法竞赛问题。

多版本灵活部署

提供不同规模的版本以适应各种场景：

深度集成 Google 生态

面向开发者的开放平台

通过 Google AI Studio 和 Vertex AI，开发者可以便捷地调用 Gemini API 构建应用。同时，Google 推出了 Gemini CLI 开源工具，让开发者能在终端中直接使用 Gemini 的强大能力，进一步降低了AI辅助开发的门槛。