AI应用头把交椅换人, Gemini凭什么超越ChatGPT?

发布者:黄洁心发布时间:2025-09-19浏览次数:10

近日谷歌旗下的Gemini实现了对ChatGPT的历史性超越,成功登顶美国App Store免费榜,并在多个国家位居第一。


在AI应用的发展历程中,OpenAI的ChatGPT自2022年底问世以来,长期被视为无可撼动的领导者。ChatGPT不仅率先将大模型带入公众生活,还在全球范围内形成了广泛的用户基础与应用生态。这次的应用排名的变化显示出AI竞争格局的深刻转折。Gemini的胜利并非偶然,它既源于功能创新带来的爆发效应,更预示着大模型竞争进入了新阶段。

图片

图片来源:量子位


Gemini逆袭的关键

图像生成引爆用户热情

Gemini能够在短期内实现超越,最直接的因素是谷歌在8月底推出的代号为Nano Banana的图像生成与编辑模型。这一功能一经上线便迅速引发全球用户的热情,仅一周内就完成了超过两亿次图像编辑,吸引了一千万以上新用户进入Gemini平台。社交平台上,用户们用它生成的宠物手办、人物换景、元素拼接作品层出不穷,效果惊艳吸睛,带来了极强的传播效应,让它一跃成为AI应用圈的现象级存在。

图片

图片来源:小红书


Nano Banana能够引发如此热潮,其核心在于功能的普惠性。无论是免费用户还是付费用户,都可以直接在Gemini应用内使用该模型进行图像生成和编辑,由此显著降低了使用门槛,进一步拓宽了潜在用户群体。与此同时,与过去依赖Photoshop等专业软件才能完成的图像合成和风格统一任务不同,Nano Banana通过自然语言交互,使普通用户也能够轻松实现这些操作。这种“技术大众化”的特性,不仅满足了用户的娱乐需求,也成为推动用户规模快速增长的关键因素。由此可见,Gemini的登顶是AI功能创新与普及化策略相结合的结果。

图片

图片来源:Google Gemini


十年深耕

算力与生态的双重护城河

如果说Nano Banana是Gemini逆袭的催化剂,那么真正让谷歌具备实现反超可能性的,是其长期积累的算力和生态优势。谷歌并未仅仅依赖模型迭代来争夺市场,而是通过深度整合硬件与应用生态,构筑了双重护城河。


在硬件层面,谷歌早在2015年便着手研发TPU(张量处理单元),并持续进行优化升级。与依赖英伟达GPU的竞争对手相比,谷歌通过自研芯片大幅降低了算力运营成本,据分析师估计,其整体成本比依赖GPU的公司低约20%。更重要的是,自研芯片让谷歌摆脱了全球GPU供给紧张的限制,能够在用户需求激增时保持相对稳定的服务质量。对于动辄上亿次调用的AI应用而言,这种算力保障是决定性因素。

图片

图片来源:Google


在生态层面,Gemini的推广并不依赖于单一应用,而是通过谷歌庞大的产品矩阵实现全方位渗透。在安卓系统中,它接管了语音助手的核心功能;在Google Workspace(文档、Gmail、表格)中,它成为办公套件的智能助手;在搜索引擎中,则驱动着AI概览(AI Overviews)功能。用户即便没有主动下载Gemini,也会在日常使用谷歌服务的过程中自然接触并逐步形成依赖。与此相比,ChatGPT更多依赖独立应用或特定场景,触达范围和普及速度相对有限。谷歌这种深度整合的策略,使Gemini能够在短时间内覆盖全球庞大的用户群体。

图片

图片来源:纽约时报


由此可见,比起偶然的单一产品胜利,Gemini的成功更是谷歌长期战略投入与资源整合的集中体现:功能创新带来爆发式增长,算力与生态保证了可持续发展,两者结合才使Gemini有能力打破ChatGPT的长期“霸榜”垄断。

图片

图片来源:tinhte


未来大模型的发展趋势

Gemini的逆袭反映出随着技术日趋成熟,单纯依靠模型规模或对话能力已难以形成决定性优势,用户选择更多取决于使用场景的丰富性、功能体验的便利性以及生态系统的深度整合。Gemini的成功正好展示了这些因素的综合作用:功能创新带来爆发性增长,而生态与算力保障了长期稳定。

图片

图片来源:量子位


首先,竞争将从模型性能的比拼转向生态体系的较量。在早期阶段,模型规模、推理速度和对话能力是衡量优劣的核心标准,但随着各家技术水平的逐渐接近,这些差距不再足以决定胜负。谁能将大模型更深入地嵌入高频使用场景,谁就能赢得用户。谷歌依托搜索、安卓和办公套件完成了这一转型,未来微软、苹果等巨头也将通过自身生态推动AI落地。

图片

图片来源:AIP Media


其次,功能的普及化和娱乐化将成为重要驱动力。Nano Banana的爆火表明,能够迅速扩展用户群的,未必是前沿的科研能力,而是能让大众以最低门槛体验AI价值的功能。未来大模型可能更多在图像、视频、语音等轻量化应用中创造热点,让AI真正融入日常生活。

图片

图片来源:纽约时报


最后,多模态融合将成为发展方向。从文本到图像,再到音频与视频,AI正逐步实现跨模态的统一交互。未来的用户体验将不再依赖单一的文字对话,而是语音、视觉和动作的综合交互,直至发展为能够自动执行任务的“智能体”。这一趋势不仅改变个人用户的交互方式,也将推动企业级应用的广泛落地。

图片

图片来源:SEO.AI




·END·

作者:石淳瑜

编辑:赵佳文、陶禹彤

编撰:同济大学国家创新发展研究院

监制:同济大学政治与国际关系学院、同济大学外国语学院

监审:同济大学网络空间国际治理研究基地