GPT4o最新绘图模型评测（附使用方法及Prompt）

这几天，你要说 AI 圈最火的是哪个模型？OpenAI 的 GPT-4o 当仁不让。
吉卜力风格的图像和视频在社交圈疯传，被玩出了花。之心用 GPT-4o 和可灵做出了吉卜力版《甄嬛传》全网播放超 20w。

自打 GPT-4o 上线文生图模型以来，我的朋友圈就被它刷了屏。
有人用来搞漫画：

有人拿它玩梗图：

官方一度服务器被撑爆，各种限制使用次数，奥特曼请求大家轻点使用，经过几天的努力现在看起来服务已经稳定了，我们也可以实际体验下新模型画图能力到底如何，同时也对比下上个月火爆的Grok3，这个多模态模型也可以一建画图。

测试一：人物形象一致性（佟丽娅形象）

首先第一个测试，吉卜力风格漫画，我们给定同一个人物，生成吉卜力风格照片，看画风保持如何，输入都是美女佟丽娅。

先看Grok3的效果，人物一致性很好，笑容、耳环这些细节都有保持，但在项链、戒指这些细节上，都有了误差，并且对背景进行了额外创作，整体风格能看出是吉卜力画风：

再看下GPT-4o-image，在细节上保持完美，能够还原出佟丽娅的美貌，在耳环、项链、戒指这些细节上全部还原，并且背景也与原图一致。

从这一题上看，GPT-4o-image确实更适合保持原著的创作，而Grok3在一致性上有一定差距，更适合多样性创作。

测试二：复杂指令跟随能力

第二个测试，做一个更复杂的图，同时考察语言follow能力和中文文字能力。我们设置一个非常复杂的指令：

绘制一张色彩鲜艳、手绘风格的北京旅游手账插画，仿佛由一位充满好奇心的孩子用蜡笔精心创作。画面整体用柔和温暖的黄色背景，搭配鲜明的红色、蓝色、绿色等亮丽颜色，营造温馨而充满童趣的氛围。

插画中间绘制一条蜿蜒曲折的旅行路线，用箭头和虚线标记出各个经典地点，沿途包括：

- “第一站：吃碗老北京炸酱面！”

- “第二站：登顶景山，看紫禁城全景！”

- “第三站：逛逛神秘的故宫，注意：人超多！”

- “第四站：吃个冰糖葫芦，逛进胡同！”

- “第五站：去天坛，和爷爷奶奶一起晨练！”

- “第六站：到北海公园划船赏白塔！”

- “第七站：天安门前自拍打卡！”

- “第八站：去长城爬一爬，做个小勇士！”

- “最终站：尝一口地道的北京烤鸭，再买点纪念品回家！”

插画周围布满趣味元素：

- 拿着冰糖葫芦、吃着冰淇淋的开心小朋友；

- 指示牌：“小心迷路！”，“注意人流！”；

- 天安门、故宫、长城等经典地标用简单童趣风格画出；

- 贴纸式标语：“北京旅行记忆已解锁！”、“北京美食大冒险！”；

- 可爱的北京特色美食小图标（炸酱面、冰糖葫芦、烤鸭）；

- 欢乐的感叹：“原来北京这么好玩！”、“我还要再来一次！”

整体风格可爱而有趣，构图饱满生动，文字采用简洁可爱的手写体，仿佛带人进入一段童真又难忘的北京旅行回忆！

先看Grok3的效果，可以看出由于提示词的复杂度，Grok只关注到了一部分元素比如天安门、小朋友，并没有理解这套提示词的内容。

再看下GPT-4o-image，整体图非常完整，提示词内容中提到的八站都完美的画了出来，并且是以路线图的方式呈现，对于一些指示文字也还原度很高!，像『注意人流』『原来北京这么好玩！』『我还要再来一次！』都完美呈现，中文文字能力非常强，这在之前的模型中都比较少见。并且对复杂指令的理解能力非常强，提到的元素都有在图中刻画，配图和文字达到了基本设计可用的效果！

总结

从测试结果来看，GPT-4o 在保持原作风格、复杂指令跟随和中文文字处理方面都展现出明显优势，特别适合需要高度细节还原的创作。而 Grok3 则在创意发挥方面有其特点，适合需要多样性创作的场景。
目前，GPT-4o 的强大图像生成能力确实当之无愧地成为了 AI 圈最受关注的焦点，各种创意应用不断涌现，从漫画到梗图，从人物风格化到复杂场景构建，都展示了其作为多模态模型的卓越性能。
大家要体验不同的模型绘画能力，可以直接使用AIBox平台，支持GPT、Grok、Claude等模型：
https://chat.aibox365.cn

转载联系作者并注明出处：https://www.aibox365.cn/gjfx/151.html