本地调用gpt-4o api 简单多模态分析

本地调用GPT-4o接口实现图像描述功能：前端开发者与AI研究者的指南

随着人工智能技术的快速发展，多模态模型和单模态模型正在改变我们与计算机交互的方式。在这篇文章中，我们将探讨如何在本地环境中使用JavaScript来调用GPT-4o接口，以实现一个图像描述的应用场景。这个过程不仅展示了单模态模型（如文本生成）的能力，还体现了多模态处理（如结合图像分析）的魅力。

准备工作

首先确保你的开发环境已经安装了Node.js，并且你拥有一个有效的API密钥来访问GPT-4o服务。此外，你需要安装dotenv用于管理环境变量以及openai库来与OpenAI API进行交互。

安装依赖

npm install dotenv openai

初始化项目

创建一个新的Node.js项目，并在根目录下添加.env文件来存储你的API密钥。

# .envOPENAI_API_KEY=your_openai_api_key_here

接下来，在项目中创建一个名为main.js的入口文件，并开始编写代码。

编写代码

下面是我们将要构建的应用程序的核心代码。这段代码实现了从指定URL加载一张图片，并请求GPT-4o模型基于这张图片生成一段描述性文本的功能。

import dotenv from "dotenv";import OpenAI from "openai";// 加载环境变量dotenv.config();// 初始化OpenAI客户端const client = new OpenAI({    apiKey: process.env.OPENAI_API_KEY,//注意这里容易犯错，这个process.env.OPENAI_API_KEY是一个对象，所以不要用字符串括起来    baseURL: "https://api.302.ai/v1"});// 主函数const main = async () => {    try {        // 发送请求到GPT-4o模型        const response = await client.chat.completions.create({            model: "gpt-4o",            messages: [                {                    role: "user",                    content: [                        { type: "text", text: "请描述这张图片" },                        { type: "image_url", image_url: { url: "https://img-blog.csdnimg.cn/img_convert/97cb29344629c3b314a5dae225d73187.jpeg" } }                    ]                }            ],            temperature: 0.9,            max_tokens: 150        });        // 输出模型返回的结果        console.log(response.choices[0].message.content);    } catch (error) {        console.error("发生错误:", error);    }};main();

我们来简单介绍每行代码

1. 导入依赖

javascriptimport dotenv from "dotenv";import OpenAI from "openai";

dotenv

.env

OpenAI

2. 加载环境变量

javascriptdotenv.config();

dotenv.config()

.env

3. 初始化OpenAI客户端

javascriptconst client = new OpenAI({    apiKey: process.env.OPENAI_API_KEY,    baseURL: "https://api.302.ai/v1"});

new OpenAI({...})

apiKey: process.env.OPENAI_API_KEY

baseURL: "https://api.302.ai/v1"

4. 主函数

javascriptconst main = async () => {

async

await

5. 尝试调用API

javascripttry {

try

6. 发送请求到GPT-4o模型

javascriptconst response = await client.chat.completions.create({    model: "gpt-4o",    messages: [        {            role: "user",            content: [                { type: "text", text: "描述这张图片" },                { type: "image_url", image_url: { url: "https://img-blog.csdnimg.cn/img_convert/97cb29344629c3b314a5dae225d73187.jpeg" } }            ]        }    ],    temperature: 0.9,    max_tokens: 150});

client.chat.completions.create({...})：发送一个聊天完成请求到GPT-4o模型。

model: "gpt-4o"：指定使用的模型为GPT-4o。

messages：包含用户消息的数组。

role: "user"：指定消息的角色为用户。

content：消息内容数组，可以包含多种类型的内容。

{ type: "text", text: "描述这张图片" }

{ type: "image_url", image_url: { url: "..." } }

temperature: 0.9：控制生成文本的随机性，值越高，生成的文本越多样化。

max_tokens: 150：限制生成的最大令牌数。

注意，这里有个小细节，你传给大模型的额image_url一定要是一个对象，所以一定要用花括号括起来

7. 输出模型返回的结果

javascriptconsole.log(response.choices[0].message.content);

response.choices[0].message.content

8. 异常处理

javascript} catch (error) {    console.error("发生错误:", error);}

catch (error)

try

console.error("发生错误:", error)

9. 启动主函数

javascriptmain();

main

代码解析

导入依赖

dotenv

openai

设置环境变量

dotenv.config()

.env

初始化客户端

主逻辑

main

异常处理

运行应用

完成上述步骤后，只需运行node main.js命令即可启动程序。如果一切正常，你应该能在控制台看到GPT-4o根据给定图片生成的一段描述文字。

我们来看看调用的结果

本地调用GPT-4o接口实现图像描述功能：前端开发者与AI研究者的指南

准备工作

安装依赖

初始化项目

编写代码

1. 导入依赖

2. 加载环境变量

3. 初始化OpenAI客户端

4. 主函数

5. 尝试调用API

6. 发送请求到GPT-4o模型

7. 输出模型返回的结果

8. 异常处理

9. 启动主函数

代码解析

运行应用

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签