Zilliz 04月09日 18:40
深度解读| GPT4o离干掉套壳AI与Midjourney只差最后一步
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了GPT-4o等大模型在图像生成领域的突破,以及对传统设计行业的潜在冲击。文章强调了私有数据与人类洞察在AI时代的重要性,并以向量数据库Milvus为例,展示了如何将私有数据与大模型结合,实现更精准的图像搜索和内容创作。作者认为,模型即产品的时代已经到来,企业应重视私有数据的价值,以应对大模型带来的机遇与挑战。

🎨 GPT-4o的出现标志着AI图像生成技术的重大进步,其低门槛、高一致性和良好的审美能力使其有能力取代部分人类设计师的工作。

🔄 文章区分了扩散模型和自回归模型,指出后者(如GPT-4o)在图像生成方面具有更低的提示词要求,使得AI图像创作更易于上手。

💡 结合Milvus向量数据库,文章展示了如何利用私有数据进行以图搜图,精准查找特定图像,并结合GPT系列生成创意内容,强调了私有数据与大模型结合的重要性。

原创 王舒虹 2025-03-31 19:08 上海

大模型始终无法替代的,是私有数据的价值与人类洞察。

前言

你敢相信吗,以上内容,是AI做的,来自不久前发布的GPT4o!

3月26日,OpenAI正式推出GPT-4o原生图像生成功能,并默认其成为ChatGPT和Sora平台的默认图像引擎。

相比市面上的大部分AI生图软件,GPT-4o在画面一致性有了质的突破,此外还支持多轮对话来增删画面元素、调整图片的比例、大小、透明度,或者将2D图片改成3D效果等专业操作。

然后一夜之间,马斯克与扎克伯格的约架照,特朗普与普京的接吻照,吉卜力风格的大头照,AI漫画,一夜之间全球满天飞。

这对很多企业,尤其是广告行业、电商行业来说,是一场精准的降维打击。过去需要一个设计、一个动效师花费一天才能完成的事情,AI只要五分钟就能搞定,而且还能批量产出不同风格的内容。

但4o的影响仅止于此吗?深度体验几天之后,我们发现,这或许是第一次,AI有能力取代人类设计师的时刻;

从官方发布的应用商店GPTs到主打直接生成深度内容的DeepResearch,从对话式生图的GPT-4o到对话式生成视频的Sora……

越来越多的现象正表明,模型即产品正成为大趋势。

更通俗直白来说,大部分基于公域数据,做大模型套壳的产品,都将批量被淘汰。

而私域数据+通用大模型,或许会是大部分企业在大模型时代生存的最优解。

01 

OpenAI离干掉套壳AI与midjourney只差最后一步

当前,基于对话交互生图的功能,字节的SeedEdit、Google的Gemini 2.0都曾做过展示,但是真正做到低门槛、高度一致性,且有良好审美的,GPT-4o仅此一家。

所谓低门槛:只要有一个GPT账号,就能拥有免费体验额度,出图只需要对着AI说一句话。

所谓高一致性:大模型不但可以单张出图,还能基于已有图片进行微调修改,画面人物、元素保持高度一致。另外,GPT-4o 能处理多达 10-20 个不同物体的复杂指令,效率之高,让人啧舌。

关于如何做到以上进步,OpenAI只在其安全治理文档中,一笔带过的提出:「不同于基于扩散模型的 DALL・E,4o 图像生成是一个嵌入在 ChatGPT 中的自回归模型。」

这里我们对扩散模型和自回归模型做一个简单的科普:

过去业内最流行的AI生图模型Stable Diffusion 就是典型的扩散模型,其原理大致是先将图像逐渐添加噪声使其模糊,再通过去噪过程逐步恢复图像。而自回归模型则是按照一定的顺序(如从左到右、从上到下)逐像素或逐token地生成图像。

两者的图像质量暂无明显的高下之分,但前者经常需要我们给出非常精准、冗长的提示词;而后者,我们只需给出一句,我想要梵高风格的XX,我想要他毕加索风格的XX就能直接给出结果,门槛低到识字就能做(比如本文头图就是这么生成的)。

相应的,层出不穷的提示词教程,也要变得不再必要。

在这个背景下,一个讨论出现了,AI原生是否存在?

一个肯定的结论是,基于公开数据给大模型套壳,然后做提示词、工作流封装的产品,都会在短暂的解决用户需求之后,被模型本身的迭代所取代。

而那些真正存活的产品,将会是那些+AI的产业。更直白来说,就是有私有数据,然后数据结合AI做产品的。

那么怎么样才是将私有数据,与4o结合的最佳姿势?接下来,我们以向量数据库Milvus来展示具体的部署过程:

02

部署教程

背景

有一天,我灵机一动,想把我家边牧可乐的历史罪行全都画成漫画,但问题是,我要怎么从几万张工作截图、外出旅行、美食打卡的照片中,找到罪魁祸首的照片呢?

于是,我选择把所有照片导入Milvus,以图搜图,精准找出它的犯罪记录。

以下是操作的全过程:

部署资源参考:

(1)依赖和环境

    pip install pymilvus --upgradepip install torch numpy scikit-learn pillow

    (2)准备数据

      !wget https://github.com/milvus-io/pymilvus-assets/releases/download/imagedata/reverse_image_search.zip!unzip -q -o reverse_image_search.zip

      (3)定义特征提取器

      接下来,我们需要定义一个特征提取器,该模块将使用timm库的ResNet-50模型从图像中提取嵌入向量。

        import torchfrom PIL import Imageimport timmfrom sklearn.preprocessing import normalizefrom timm.data import resolve_data_configfrom timm.data.transforms_factory import create_transformclass FeatureExtractor:    def __init__(self, modelname):        # Load the pre-trained model        self.model = timm.create_model(            modelname, pretrained=True, num_classes=0, global_pool="avg"        )        self.model.eval()        # Get the input size required by the model        self.input_size = self.model.default_cfg["input_size"]        config = resolve_data_config({}, model=modelname)        # Get the preprocessing function provided by TIMM for the model        self.preprocess = create_transform(**config)    def __call__(self, imagepath):        # Preprocess the input image        input_image = Image.open(imagepath).convert("RGB")  # Convert to RGB if needed        input_image = self.preprocess(input_image)        # Convert the image to a PyTorch tensor and add a batch dimension        input_tensor = input_image.unsqueeze(0)        # Perform inference        with torch.no_grad():            output = self.model(input_tensor)        # Extract the feature vector        feature_vector = output.squeeze().numpy()        return normalize(feature_vector.reshape(1, -1), norm="l2").flatten()

        (4) 创建一个Milvus集合

        接下来我们需要创建一个Milvus的集合来存储这些图片的embedding向量

          from pymilvus import MilvusClientclient = MilvusClient(uri="example.db")if client.has_collection(collection_name="image_embeddings"):    client.drop_collection(collection_name="image_embeddings")client.create_collection(    collection_name="image_embeddings",    vector_field_name="vector",    dimension=2048,    auto_id=True,    enable_dynamic_field=True,    metric_type="COSINE",)

          关于MilvusClient的参数设置:

          (5) 将这些图片的embedding插入Milvus

          我们将使用ResNet50模型提取每个图像的embedding,并将训练集中的图像插入到Milvus中。

            import osextractor = FeatureExtractor("resnet50")root = "./train" #数据集地址insert = Trueif insert is True:    for dirpath, foldername, filenames in os.walk(root):        for filename in filenames:            if filename.endswith(".jpeg"):                filepath = dirpath + "/" + filename                image_embedding = extractor(filepath)                client.insert(                    "image_embeddings",                    {"vector": image_embedding, "filename": filepath},                )

            (6) 现在我们可以开始“以图搜图”,

            比如我用的就是我家边牧的照片,然后检索出相册里更多它的照片,
              from IPython.display import displayquery_image = "./search-image.jpeg" #要检索的图片results = client.search(    "image_embeddings",    data=[extractor(query_image)],    output_fields=["filename"],    search_params={"metric_type""COSINE"},    limit=5,#设置top k )images = []for result in results:    for hit in result[:10]:        filename = hit["entity"]["filename"]        img = Image.open(filename)        img = img.resize((150, 150))        images.append(img)width = 150 * 5height = 150 * 2concatenated_image = Image.new("RGB", (width, height))for idx, img in enumerate(images):    x = idx % 5    y = idx // 5    concatenated_image.paste(img, (x * 150, y * 150))display("query")display(Image.open(query_image).resize((150, 150)))display("results")display(concatenated_image)

              召回的图

              03 

              效果展示

              提示词:帮我生成一个四格彩色的搞笑漫画,还原一只边牧啃坏鼠标,被女主人发现,很尴尬的作案现场

              提示词:请画一个漫画,内容是这只边牧穿上洛丽塔衣服

              请以这只狗为原型,画这只狗去上哈利波特魔法学院的漫画图

              当然,整个过程中还是翻了好几次的,这是我的一些使用小心得:

              尾声

              以AI绘图为出发点,我们对OpenAI的近半年的重磅发布做一个梳理,可以发现,无论是主打应用商店功能的GPTs还是直接生成报告的DeepResearch,或是文生图的4o、视频生成的Sora,大模型已经越来越从幕后走到台前,从一个未成熟的技术,变成半成熟的产品。

              而伴随着4o为代表的扩散模型出图逐渐被更多人接受,多数基于Stable Diffusion 搭建的工作流、智能体就进入了淘汰倒计时。

              但大模型始终无法替代的,是私有数据的价值与人类洞察。比如AI不会彻底替代广告公司,但是通过Milvus向量数据库结合GPT系列,广告公司可以快速结合历史爆款素材生成新的创意,电商平台可以根据购物推荐结果为用户生成定制化的服装与设计,学术平台可以检索历史成果一键生成科研配图……

              模型即产品的时代这次真的来了,而数据金矿的挖掘竞赛,才刚刚开启。

              作者介绍

              王舒虹

              Zilliz Social Media Advocate

              推荐阅读

              阅读原文

              跳转微信打开

              Fish AI Reader

              Fish AI Reader

              AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

              FishAI

              FishAI

              鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

              联系邮箱 441953276@qq.com

              相关标签

              GPT-4o 大模型 私有数据 Milvus AI图像生成
              相关文章