告别“乱码”时代：OpenAI 发布 Images 2.0，AI 绘图迈入文本精准渲染新纪元

在不久前，区分人类创作与 AI 生成图像的界限还清晰可见。仅仅两年前，如果你尝试利用图像模型制作一份墨西哥餐厅的菜单，模型往往会“自创”出一系列毫无意义的虚构词汇，例如“enchuita”或“burrto”。然而，随着 OpenAI 全新推出的 ChatGPT Images 2.0 模型问世，这种典型的“AI 痕迹”正在迅速消失。现在的模型生成的菜单已达到了商业级水准，其文字准确度足以让顾客在用餐时毫无察觉。

长期以来，AI 图像生成器在处理文本方面一直面临巨大的技术瓶颈。这主要归因于传统的扩散模型（Diffusion Models）的工作原理——通过从噪声中重建图像，模型倾向于将文字视为图像中极小的一部分像素模式，从而难以捕捉字符的逻辑结构与语义完整性。虽然 OpenAI 在最近的新闻发布会上拒绝透露 Images 2.0 的具体底层架构，但官方明确指出，新模型具备了革命性的“思考能力”（thinking capabilities）。

这种“思考能力”赋予了模型执行复杂任务的潜力，包括通过网页搜索获取实时信息、基于单一提示词生成多张关联图像，以及对生成内容进行自我校验。这意味着 Images 2.0 不仅能生成高质量的静态图像，还能创作多格漫画、设计营销素材，并能精确处理不同尺寸的输出需求。此外，该模型在处理非拉丁语系（如日语、韩语、印地语和孟加拉语）的文本渲染方面也取得了显著进步。

在技术规格方面，Images 2.0 能够应对极具挑战性的构图需求，例如精细的图标设计、用户界面（UI）元素以及高密度的复杂场景，分辨率最高可达 2K。尽管这种高精度的生成过程比纯文本对话更为耗时，但其带来的视觉保真度与指令遵循能力是前所未有的。目前，所有 ChatGPT 和 Codex 用户都将在本周二开始陆续获得 Images 2.0 的访问权限，开发者也将通过全新的 gpt-image-2 API 调用该模型，其定价将根据输出的质量与分辨率而定。

🔗 来源：TechCrunch

告别“乱码”时代：OpenAI 发布 Images 2.0，AI 绘图迈入文本精准渲染新纪元

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)