迪士尼彩乐园2打开 GPT-4o图像生成的机密,OpenAI 没说,网友仍是拼出真相?

机器之心报说念迪士尼彩乐园2打开
裁剪:Panda、陈陈
自从 OpenAI 发布 GPT-4o 图像生见效力以来,短短几天时辰,咱们眼睛里看的,耳朵里听的,简直皆是对于它的音讯。
不会 PS 也能化身绘画大众,大肆大开一个外交媒体,一眼望去皆是 GPT-4o 生成的案例。
比如,吉卜力画风的特朗普「积极坦诚对话」泽连斯基:

然则,OpenAI 一向并不 Open,此次也不例外。他们仅仅发布一份 GPT-4o 系统卡附录(增补文献),其中也主如果推崇了评估、安全和处治方面的内容。

地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
对于技巧,在这份长达 13 页的附录文献中,也仅在最运行时提到了一句:「不同于基于扩散模子的 DALL・E,4o 图像生成是一个镶嵌在 ChatGPT 中的自追想模子。」
OpenAI 对技巧守秘,也抵牾不住全球对 GPT-4o 责任口头的温存,现时网罗上仍是出现了各式揣摸、逆向工程。
比如谷歌 DeepMind 考虑者 Jon Barron 确认 4o 出图的历程揣摸其可能是组合使用了某种多表率技巧与自追想。

不外,值得一提的是,香港中语大学博士生刘杰(Jie Liu)在考虑 GPT-4o 的前端时发现,用户在生成图像时看到的逐行生成图像的扫尾其实仅仅浏览器上的前端动画扫尾,并不成准确确实地响应其图像生成的具体历程。实质上,在每次生成历程中,OpenAI 的行状器只会向用户端发送 5 张中间图像。您以致不错在截止台手动救助敷衍函数的高度来改换生成图像的敷衍边界!

因此,在推断 GPT-4o 的责任旨趣时,其生成时的前端展示扫尾可能并不是一个好依据。
尽管如斯,照旧让咱们来望望各路考虑者皆作念出了怎么的揣摸。全体来说,对 GPT-4o 原生图像生成才能的推断主要鸠合在两个宗旨:自追想 + 扩散生成、非扩散的自追想生成。底下咱们详备盘货一下关连猜思,并会毛糙先容网友们猜思关联的一些关连论文。
许多网友猜思 GPT-4o 的图像生成弃取了「自追想 + 扩散」的范式。比如 CMU 博士生 Sangyun Lee 在该功能发布后不久就发推猜思 GPT-4o 会先生成视觉 token,再由扩散模子将其解码到像素空间。而且他以为,GPT-4o 使用的扩散方法是访佛于 Rolling Diffusion 的分组扩散解码器,会以从上到下的规章进行解码。

他进一步给出了我方得出如斯猜思的依据。

情理 1:如果有一个弘大的条目信号(如文本,也可能有视觉 token),用户时常会先看到将要生成的内容的敷衍草图。因此,那些待生成区域会露馅疏漏的结构。情理 2:其 UI 标明,图像是从顶部到底部生成的。Sangyun Lee 曾在我方的考虑中尝试过底部到顶部的规章。
Sangyun Lee 猜思到,这么的分组模式下,高 NFE(函数评估数目)区域的 FID 会更好一些。但在他考虑发现这少许时,他仅仅以为这是个 bug,而非特点。但现时情况不雷同了,东说念主们皆在考虑测试时筹划。

临了,他得出论断说:「因此,这是一种介于扩散和自追想模子之间的模子。事实上,通过设立 num_groups=num_pixels,你以致不错还原自追想!」
另外也有其他一些考虑者给出了访佛的判断:

如果你对这一猜思感酷好,不错参看以下论文:
Rolling Diffusion Models,arXiv:2402.09470;Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039
上周外媒theverge发文,称自己已经和NextHandheld进行交谈,基本上可以确定他的话为真。“我看到了两张可能是任天堂Switch 2底座的照片,迪士尼彩乐园 Ⅲ以及一张可能是Switch 2手柄导轨区域内部的照片,这张照片上有着认证标志,裸露的铜触点清晰可见,还显示U型金属支架铰链以一定角度打开。值得注意的是,这个底座并未在此前广为流传的Switch 2 3D打印模型里出现。”
玩家可以从复仇者联盟、银河护卫队、X 战警以及漫威多元宇宙中挑选众多超级英雄或超级反派组成队伍,如黑豹、蜘蛛侠、万磁王等经典角色。每个角色都拥有独特的技能和战斗风格,并且其超能力与近身肉搏技能相结合。玩家还可根据自己的喜好对角色的技能和装备进行个性化定制。
使用过 GPT-4o 的皆知说念,其在生成图像的历程中老是先出现上半部分,然后才生成无缺的图像。
Moonpig 公司 AI 主宰 Peter Gostev 以为,GPT-4o 是弃取从图像的顶部流 token 运行生成图像的,就像文本生成口头雷同。

着手:https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/
Gostev 显露,与传统的图像生成模子比拟,GPT-4o 图像生成的关节分别在于它是一个自追想模子。这意味着它会像生成文本雷同,按规章逐一流式传输图像 token。比拟之下,基于扩散历程的模子(举例 Midjourney、DALL-E、Stable Diffusion)时常是从噪声到显著图像一次性完成调遣。

这种自追想模子的主要上风在于,模子不需要一次性生成扫数全局图像。违犯,它不错通过以下口头来生成图像:
诓骗其模子权重中镶嵌的通用常识;通过按规章流式传输 token 来更连贯地生成图像。
更进一步的,Gostev 以为,如果你使用 ChatGPT 并点击检查(Inspect),然后在浏览器中导航到网罗(Network)标签,就不错监控浏览器与行状器之间的流量。这让你大约稽查 ChatGPT 在图像生成历程中发送的中间图像,从而赢得一些有价值的痕迹。
Gostev 给出了一些初步的不雅察扫尾(可能并不无缺):
图像是从上到下生成的;这个历程确乎波及流 token,与扩散方法截然有异;从一运行,就不错看到图像的大要概括;先前生成的像素在生成历程中可能会发生显赫变化;这可能标明模子弃取了某种连贯性优化,尤其是在接近完成阶段时愈加彰着。
临了,Gostev 显露还有一些无法平直从图像中看到的额外不雅察扫尾:
对于毛糙的图像生成,GPT-4o 速率要快得多,时常唯有一个中间图像,而不是多个。这可能暗意使用了推测解码或其他访佛方法;图像生成还具备布景移除功能,从现时的情况来说,领先 GPT-4o 生成图片会呈现一个假的棋盘格布景,直到临了才移除实质布景,这会稍稍裁汰图像质地。这似乎是一个额外的处理历程,而不是 GPT-4o 本人的功能。
开导者 @KeyTryer 也给出了我方的猜思。他说 4o 是一种自追想模子,通过屡次通过来逐像素地生成图像,而不是像扩散模子那样现实去噪按次。

而这种才能本人即是 GPT-4o LLM 神经网罗的一部分。表面上讲,它大约比扩散系统更好地掌持它们正在操作的见识,而扩散系统仅仅对当场噪声的一种揣摸。
GPT-4o 还大约使用 LLM「知说念」的信息来生成图像。也因此,它们具有更好的泛化才能,大约使用多条音讯进行凹凸体裁习,通过特定的裁剪输出调换(或终点接近)的扫尾,何况具有广义的空间和场景感。
芬兰赫尔辛基的大学副教育 Luigi Acerbi 也指出,GPT-4o 基本就仅仅使用 Transformer 来估量下一个 token,何况其原生图像生成才能一运行就有,仅仅一直以来皆莫得公开导布。

不外,Acerbi 教育也提到,OpenAI 可能使用了扩散模子或或一些修饰模子来为 GPT-4o 生成的图像现实一些计帐或添加小细节。
GPT-4o 原生图像生见效力究竟是如何好意思满的?这少许终究还得恭候 OpenAI 我方来揭秘。对此,你有什么我方的猜思呢?
https://x.com/karminski3/status/1905765848423211237
https://x.com/iScienceLuvr/status/1905730169631080564
https://x.com/AcerbiLuigi/status/1904793122015522922
https://x.com/Hesamation/status/1905762746056278278
https://x.com/jie_liu1/status/1905761704195346680
下一篇:没有了