这几天,你要说 AI 圈最火的是哪个模型?OpenAI 的 GPT-4o 当仁不让。
吉卜力风格的图像和视频在社交圈疯传,被玩出了花。之心用 GPT-4o 和可灵做出了吉卜力版《甄嬛传》全网播放超 20w。
自打 GPT-4o 上线文生图模型以来,我的朋友圈就被它刷了屏。
有人用来搞漫画:
有人拿它玩梗图:
官方一度服务器被撑爆,各种限制使用次数,奥特曼请求大家轻点使用,经过几天的努力现在看起来服务已经稳定了,我们也可以实际体验下新模型画图能力到底如何,同时也对比下上个月火爆的Grok3,这个多模态模型也可以一建画图。

先看Grok3的效果,人物一致性很好,笑容、耳环这些细节都有保持,但在项链、戒指这些细节上,都有了误差,并且对背景进行了额外创作,整体风格能看出是吉卜力画风:
再看下GPT-4o-image,在细节上保持完美,能够还原出佟丽娅的美貌,在耳环、项链、戒指这些细节上全部还原,并且背景也与原图一致。
从这一题上看,GPT-4o-image确实更适合保持原著的创作,而Grok3在一致性上有一定差距,更适合多样性创作。

再看下GPT-4o-image,整体图非常完整,提示词内容中提到的八站都完美的画了出来,并且是以路线图的方式呈现,对于一些指示文字也还原度很高!,像『注意人流』『原来北京这么好玩!』『我还要再来一次!』都完美呈现,中文文字能力非常强,这在之前的模型中都比较少见。并且对复杂指令的理解能力非常强,提到的元素都有在图中刻画,配图和文字达到了基本设计可用的效果!
目前,GPT-4o 的强大图像生成能力确实当之无愧地成为了 AI 圈最受关注的焦点,各种创意应用不断涌现,从漫画到梗图,从人物风格化到复杂场景构建,都展示了其作为多模态模型的卓越性能。
大家要体验不同的模型绘画能力,可以直接使用AIBox平台,支持GPT、Grok、Claude等模型:
https://chat.aibox365.cn
吉卜力风格的图像和视频在社交圈疯传,被玩出了花。之心用 GPT-4o 和可灵做出了吉卜力版《甄嬛传》全网播放超 20w。

自打 GPT-4o 上线文生图模型以来,我的朋友圈就被它刷了屏。
有人用来搞漫画:

有人拿它玩梗图:

官方一度服务器被撑爆,各种限制使用次数,奥特曼请求大家轻点使用,经过几天的努力现在看起来服务已经稳定了,我们也可以实际体验下新模型画图能力到底如何,同时也对比下上个月火爆的Grok3,这个多模态模型也可以一建画图。
测试一:人物形象一致性(佟丽娅形象)
首先第一个测试,吉卜力风格漫画,我们给定同一个人物,生成吉卜力风格照片,看画风保持如何,输入都是美女佟丽娅。
先看Grok3的效果,人物一致性很好,笑容、耳环这些细节都有保持,但在项链、戒指这些细节上,都有了误差,并且对背景进行了额外创作,整体风格能看出是吉卜力画风:

再看下GPT-4o-image,在细节上保持完美,能够还原出佟丽娅的美貌,在耳环、项链、戒指这些细节上全部还原,并且背景也与原图一致。

从这一题上看,GPT-4o-image确实更适合保持原著的创作,而Grok3在一致性上有一定差距,更适合多样性创作。
测试二:复杂指令跟随能力
第二个测试,做一个更复杂的图,同时考察语言follow能力和中文文字能力。我们设置一个非常复杂的指令:绘制一张色彩鲜艳、手绘风格的北京旅游手账插画,仿佛由一位充满好奇心的孩子用蜡笔精心创作。画面整体用柔和温暖的黄色背景,搭配鲜明的红色、蓝色、绿色等亮丽颜色,营造温馨而充满童趣的氛围。
插画中间绘制一条蜿蜒曲折的旅行路线,用箭头和虚线标记出各个经典地点,沿途包括:
- “第一站:吃碗老北京炸酱面!”
- “第二站:登顶景山,看紫禁城全景!”
- “第三站:逛逛神秘的故宫,注意:人超多!”
- “第四站:吃个冰糖葫芦,逛进胡同!”
- “第五站:去天坛,和爷爷奶奶一起晨练!”
- “第六站:到北海公园划船赏白塔!”
- “第七站:天安门前自拍打卡!”
- “第八站:去长城爬一爬,做个小勇士!”
- “最终站:尝一口地道的北京烤鸭,再买点纪念品回家!”
插画周围布满趣味元素:
- 拿着冰糖葫芦、吃着冰淇淋的开心小朋友;
- 指示牌:“小心迷路!”,“注意人流!”;
- 天安门、故宫、长城等经典地标用简单童趣风格画出;
- 贴纸式标语:“北京旅行记忆已解锁!”、“北京美食大冒险!”;
- 可爱的北京特色美食小图标(炸酱面、冰糖葫芦、烤鸭);
- 欢乐的感叹:“原来北京这么好玩!”、“我还要再来一次!”
整体风格可爱而有趣,构图饱满生动,文字采用简洁可爱的手写体,仿佛带人进入一段童真又难忘的北京旅行回忆!先看Grok3的效果,可以看出由于提示词的复杂度,Grok只关注到了一部分元素比如天安门、小朋友,并没有理解这套提示词的内容。

再看下GPT-4o-image,整体图非常完整,提示词内容中提到的八站都完美的画了出来,并且是以路线图的方式呈现,对于一些指示文字也还原度很高!,像『注意人流』『原来北京这么好玩!』『我还要再来一次!』都完美呈现,中文文字能力非常强,这在之前的模型中都比较少见。并且对复杂指令的理解能力非常强,提到的元素都有在图中刻画,配图和文字达到了基本设计可用的效果!

总结
从测试结果来看,GPT-4o 在保持原作风格、复杂指令跟随和中文文字处理方面都展现出明显优势,特别适合需要高度细节还原的创作。而 Grok3 则在创意发挥方面有其特点,适合需要多样性创作的场景。目前,GPT-4o 的强大图像生成能力确实当之无愧地成为了 AI 圈最受关注的焦点,各种创意应用不断涌现,从漫画到梗图,从人物风格化到复杂场景构建,都展示了其作为多模态模型的卓越性能。
大家要体验不同的模型绘画能力,可以直接使用AIBox平台,支持GPT、Grok、Claude等模型:
https://chat.aibox365.cn
转载联系作者并注明出处:https://www.aibox365.cn/gjfx/151.html