掘金 人工智能 06月29日 21:53
本地调用gpt-4o api 简单多模态分析
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍如何使用JavaScript在本地环境中调用GPT-4o接口,实现图像描述功能。通过Node.js、dotenv和openai库,开发者可以轻松构建一个应用,该应用能接收图片URL,并调用GPT-4o模型生成对图片的描述。文章详细讲解了环境准备、依赖安装、代码编写和运行步骤,包括如何设置API密钥、初始化OpenAI客户端、构建请求消息,以及处理模型返回的结果。整个过程展示了单模态和多模态模型的结合应用,为前端开发者和AI研究者提供了实践指南。

🖼️ **准备工作与环境配置**: 在开始之前,需要确保已安装Node.js,并拥有一个有效的GPT-4o API密钥。通过`npm install dotenv openai`安装必要的依赖,包括dotenv用于管理环境变量和openai库用于与OpenAI API交互。

🔑 **初始化项目与API密钥**: 创建一个Node.js项目,并在根目录下添加.env文件,用于存储API密钥。例如,`.env`文件中可以包含`OPENAI_API_KEY=your_openai_api_key_here`,确保API密钥的安全存储。

💻 **编写核心代码**: 核心代码主要包括导入依赖、设置环境变量、初始化OpenAI客户端以及发送请求到GPT-4o模型。通过`client.chat.completions.create`方法,构造包含图片URL的消息,请求模型生成描述。注意,传递给大模型的`image_url`必须是一个对象。

🚀 **运行与结果**: 运行`node main.js`命令启动程序,如果一切正常,控制台将显示GPT-4o模型生成的图片描述。通过这种方式,开发者可以轻松地将GPT-4o集成到自己的应用中,实现图像描述功能。

本地调用GPT-4o接口实现图像描述功能:前端开发者与AI研究者的指南

随着人工智能技术的快速发展,多模态模型和单模态模型正在改变我们与计算机交互的方式。在这篇文章中,我们将探讨如何在本地环境中使用JavaScript来调用GPT-4o接口,以实现一个图像描述的应用场景。这个过程不仅展示了单模态模型(如文本生成)的能力,还体现了多模态处理(如结合图像分析)的魅力。

准备工作

首先确保你的开发环境已经安装了Node.js,并且你拥有一个有效的API密钥来访问GPT-4o服务。此外,你需要安装dotenv用于管理环境变量以及openai库来与OpenAI API进行交互。

安装依赖

npm install dotenv openai

初始化项目

创建一个新的Node.js项目,并在根目录下添加.env文件来存储你的API密钥。

# .envOPENAI_API_KEY=your_openai_api_key_here

接下来,在项目中创建一个名为main.js的入口文件,并开始编写代码。

编写代码

下面是我们将要构建的应用程序的核心代码。这段代码实现了从指定URL加载一张图片,并请求GPT-4o模型基于这张图片生成一段描述性文本的功能。

import dotenv from "dotenv";import OpenAI from "openai";// 加载环境变量dotenv.config();// 初始化OpenAI客户端const client = new OpenAI({    apiKey: process.env.OPENAI_API_KEY,//注意这里容易犯错,这个process.env.OPENAI_API_KEY是一个对象,所以不要用字符串括起来    baseURL: "https://api.302.ai/v1"});// 主函数const main = async () => {    try {        // 发送请求到GPT-4o模型        const response = await client.chat.completions.create({            model: "gpt-4o",            messages: [                {                    role: "user",                    content: [                        { type: "text", text: "请描述这张图片" },                        { type: "image_url", image_url: { url: "https://img-blog.csdnimg.cn/img_convert/97cb29344629c3b314a5dae225d73187.jpeg" } }                    ]                }            ],            temperature: 0.9,            max_tokens: 150        });        // 输出模型返回的结果        console.log(response.choices[0].message.content);    } catch (error) {        console.error("发生错误:", error);    }};main();

我们来简单介绍每行代码

1. 导入依赖

javascriptimport dotenv from "dotenv";import OpenAI from "openai";

2. 加载环境变量

javascriptdotenv.config();

3. 初始化OpenAI客户端

javascriptconst client = new OpenAI({    apiKey: process.env.OPENAI_API_KEY,    baseURL: "https://api.302.ai/v1"});

4. 主函数

javascriptconst main = async () => {

5. 尝试调用API

javascripttry {

6. 发送请求到GPT-4o模型

javascriptconst response = await client.chat.completions.create({    model: "gpt-4o",    messages: [        {            role: "user",            content: [                { type: "text", text: "描述这张图片" },                { type: "image_url", image_url: { url: "https://img-blog.csdnimg.cn/img_convert/97cb29344629c3b314a5dae225d73187.jpeg" } }            ]        }    ],    temperature: 0.9,    max_tokens: 150});

注意,这里有个小细节,你传给大模型的额image_url一定要是一个对象,所以一定要用花括号括起来

7. 输出模型返回的结果

javascriptconsole.log(response.choices[0].message.content);

8. 异常处理

javascript} catch (error) {    console.error("发生错误:", error);}

9. 启动主函数

javascriptmain();

代码解析

运行应用

完成上述步骤后,只需运行node main.js命令即可启动程序。如果一切正常,你应该能在控制台看到GPT-4o根据给定图片生成的一段描述文字。

我们来看看调用的结果

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o 图像描述 Node.js API接口
相关文章