AI 作图内卷加剧:Meta 刚打败 Midjourney,又被港科大超越?

发布时间:2026-01-14 17:11:35

自生成式AI上台以来,工业革命的奇景每天都在演出。

仅在图画范畴,很多企业与高校密布发布的重磅模型连续带来令人目眩神迷的震慑体会。如果说AI绘画在一开端曾给人类艺术家带来被代替的惊惧,那么,跟着这一绘画东西的数量与类型更加丰厚,AI绘画也开端了内卷——接连不断的“新神”也不断将从前的老迈推下王座,可谓“遍地是大王,时间短又光辉”。

完成五倍文生图功率提高

最近,Meta宣告开宣布一款名为CM3Leon(发音类似于“变色龙”)的人工智能模型,该模型能够依据文本生成超高分辨率的图画,也能够为图画生成文本描绘,乃至能够依据文本指令修改图画。

CM3leon的练习采用了从仅文本言语模型中调整而来的办法,此办法简略,并可发生强壮的模型,它标明根据tokenizer(分词器)的transformer模型能够和现有的根据Diffusion(分散)的生成模型相同有效地进行练习。

即便只在一个只要30亿文本符号的数据集上进行练习,CM3leon的零样赋功用与在更广泛的数据集上练习的较大模型比较也不差劲

Meta表明,CM3leon的核算量比Stable Diffusion、Midjourney等根据Diffusion的模型少了五倍,但它在文本到图画生成方面完成了最先进的功用在视觉问答和长篇阐明各种视觉言语使命中表现出色。例如,CM3leon能够处理更杂乱的prompt,在文本引导下修改图片中天空的色彩,在图片中房间的特定方位增加水槽和镜子等物体。

在对最广泛运用的图画生成基准测验(零样本MS-COCO)的功用进行比较时,CM3leonFID(Fréchet Inception Distance,用来核算实在图画与生成图画的特征向量间间隔的一种衡量,FID值越小则类似程度越高值为4.88,在文本到图画生成方面确立了新的SOTA(state of the art,最先进的技能水准),优于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列闻名图模型。这一成果突显了检索增强的潜力,并凸显了扩展战略对自回归模型功用的影响。

CM3leon具有自回归模型的多功用性和有效性,一起坚持了低练习本钱和揣度功率。它是一个因果掩码混合模态(CM3)模型,由于它能够生成根据恣意其他图画和文本内容序列的文本和图画序列。这大大扩展了曾经仅支撑文本到图画或仅支撑图画到文本的模型的功用。

业界以为,CM3leon的才能已跃居多模态商场巅峰。Meta表明,CM3Leon是图画生成和了解范畴的一大前进,但也供认该模型或许存在数据成见的问题,并呼吁职业加强透明度和监管。

核算机视觉迎来GPT-4时间

图画切割是图画了解的重要柱石,也是核算机视觉(CV)范畴中的一个重要研讨方向,在自动驾驶、无人机、工业质检、病理印象切割等范畴都有着无足轻重的位置。

跟着深度学习技能的鼓起,前期依托亮度、色彩和纹路等初级特征的图画切割办法逐步被筛选,根据神经网络的图画切割办法取得了巨大的打破——经过练习深度神经网络,能够学习到更高层次、更笼统的特征表明,然后能够更精确地进行图画切割。

本年4月,Meta发布了首个根底图画切割模型SAM(即Segment Anything Model,切割全部模型),以及对应的数据库SA-1B,瞬间引爆了AI圈。SAM是面向通用场景的图画切割模型,可用于任何需要对图画进行辨认和切割的场景,根据prompt工程,能够成为内容创造、AR/VR、科学范畴或通用AI体系的组件,完成多模态处理。

SAM大大提高了一般CV模型的图画切割才能,关于不知道和不置可否的场景也能完成较好的图画切割作用,有望大幅下降核算机辨认门槛。英伟达AI科学家JimFan曾表明“SAM是核算机视觉范畴的GPT-3时间”。

但只是3个月后,SAM的位置就受到了应战。

最近,香港科技大学团队开宣布一款比SAM更万能的图画切割模型,名为Semantic-SAM。Semantic-SAM能够彻底复现SAM的切割作用并到达更好的粒度和语义功用, 支撑通用切割(全景、语义、实例切割)、细粒度切割、具有多粒度语义的交互式切割、多粒度图画修改广泛的切割使命及其相关运用。

此外,Semantic-SAM在粒度丰厚性、语义感知性、多功用等方面优势显着,完胜Meta的SAM:只需单击一下即可输出多达6个粒度切割,与SAM比较,更可控地匹配用户目的,无需屡次移动鼠标寻觅想要切割的区块

仅对图画进行切割已无法满意AI研讨人员们的野心。视频切割是自动驾驶、机器人技能、视频修改等运用场景的根底技能,但SAM无法处理视频切割使命。

近来,来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研讨人员打破了上述限制,其发布的SAM-PT模型将SAM的零样本才能扩展到动态视频的盯梢和切割使命上,在多个视频物体切割数据集基准中取得了安稳且强壮的零样赋功用。

AI绘图的另一面

继不断更新Zoom Out(平移)、Pan(扩展)等新功用后,Midjourney最新的V6版别也将会在本月内发布。日前,AI绘图独角兽Stable Diffusion也推出了一项素描转图画的服务Stable Doodle。

关于内容创造者等C端用户来说,AI作图东西的迭代与进化带来的高精度、高质量的内容赋予了更优质的体会和更多元的挑选;凭借AI内容生成和图画切割/辨认模型,可穿戴设备的AR/VR人机交互功率和运用体会将得到明显提高,工业、自动驾驶、医疗等范畴的工作功率、辨认的精准度也将大幅提高。

但在此良夜之中,仍爬行着一些被隐瞒的危险。

跟着模型的不断更新和迭代,用户的绘画或图画数据或许会被上传到云上的服务器,或被用于练习更为先进的模型,导致一些隐私与版权问题;一起,无限制的AI制图也正被用于根据实在人物的色情图片的制造,试探着法令的底线。

AIGC不断革新内容出产形式的一起也影响着内容的消费方法,更别致更冷艳的生成内容带来的影响转瞬即逝。在无数次输入文字描绘的挑选中、在回声效应的不断固化下,AI的画笔究竟会创造出无比丰厚的内容商场仍是千人一面的审美取向,答案令人担忧。