在不久前,区分人类创作与 AI 生成图像的界限还清晰可见。仅仅两年前,如果你尝试利用图像模型制作一份墨西哥餐厅的菜单,模型往往会“自创”出一系列毫无意义的虚构词汇,例如“enchuita”或“burrto”。然而,随着 OpenAI 全新推出的 ChatGPT Images 2.0 模型问世,这种典型的“AI 痕迹”正在迅速消失。现在的模型生成的菜单已达到了商业级水准,其文字准确度足以让顾客在用餐时毫无察觉。
长期以来,AI 图像生成器在处理文本方面一直面临巨大的技术瓶颈。这主要归因于传统的扩散模型(Diffusion Models)的工作原理——通过从噪声中重建图像,模型倾向于将文字视为图像中极小的一部分像素模式,从而难以捕捉字符的逻辑结构与语义完整性。虽然 OpenAI 在最近的新闻发布会上拒绝透露 Images 2.0 的具体底层架构,但官方明确指出,新模型具备了革命性的“思考能力”(thinking capabilities)。
这种“思考能力”赋予了模型执行复杂任务的潜力,包括通过网页搜索获取实时信息、基于单一提示词生成多张关联图像,以及对生成内容进行自我校验。这意味着 Images 2.0 不仅能生成高质量的静态图像,还能创作多格漫画、设计营销素材,并能精确处理不同尺寸的输出需求。此外,该模型在处理非拉丁语系(如日语、韩语、印地语和孟加拉语)的文本渲染方面也取得了显著进步。
在技术规格方面,Images 2.0 能够应对极具挑战性的构图需求,例如精细的图标设计、用户界面(UI)元素以及高密度的复杂场景,分辨率最高可达 2K。尽管这种高精度的生成过程比纯文本对话更为耗时,但其带来的视觉保真度与指令遵循能力是前所未有的。目前,所有 ChatGPT 和 Codex 用户都将在本周二开始陆续获得 Images 2.0 的访问权限,开发者也将通过全新的 gpt-image-2 API 调用该模型,其定价将根据输出的质量与分辨率而定。
推荐意见