原创 SiliconCloud 2024-10-17 15:49 北京
免去模型部署门槛,推理速度更快,价格亲民。
继上线阿里的Qwen2.5语言模型、数学模型与代码模型,以及上海人工智能实验室的InternLM2.5语言模型之后。今天,硅基流动SiliconCloud上线了推理加速版多模态模型,可用于图片内容解读、视觉智能体等生成式AI应用。
Playground传送门
Qwen2-VL-7B-Instruct(Pro):
https://cloud.siliconflow.cn/playground/chat/17885302591
InternVL2-8B(Pro):
https://cloud.siliconflow.cn/playground/chat/17885302594
API文档
https://docs.siliconflow.cn/features/vlm
与其他各类开源大模型一样,开发者在本地运行Qwen2-VL、InternVL2模型有较高部署门槛与成本。现在,SiliconCloud上线这两大模型系列后,免去了开发者的部署门槛,并在开发应用时轻松调用相应的API服务。
更重要的是,SiliconCloud平台上的Qwen2-VL、InternVL2输出速度极快,能为你的生成式AI应用带来更高效的用户体验。此外,平台还支持开发者自由对比体验各类大模型,最终为自己的生成式AI应用选择最佳实践。
模型能力及应用实例
Qwen2-VL与InternVL 2.0是目前开源视觉语言模型的领先者。
其中,基于Qwen2-VL具有以下特点:
读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
此外,与最先进的开源多模态大语言模型相比,InternVL 2.0超越了大多数开源模型。InternVL 2.0支持图像、视频、文本、语音、三维、医疗多种模态,在关键评测指标比肩国际顶尖商用闭源模型,在MMMU(多学科问答)、通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)等评测中的性能媲美顶尖闭源模型。
现在,来分别感受下Qwen2-VL、InternVL2相关模型在SiliconCloud上的效果:
图文内容识别,唰地一下就准确且快速地识别了图片里的内容。
你也可以输入图片链接,直接识别图片内容。
数学几何求解也不在话下。
视觉化图表,Code Interpreter的应用。
文档内容解析。
当然,你还可以接入上述模型的API进行多图像理解、视频理解,SiliconCloud的Playgroud作为展示窗口,后续会支持上传视频内容。
使用示例
1.图片理解
import json from openai import OpenAIclient = OpenAI( api_key="您的 APIKEY", # 从https://cloud.siliconflow.cn/account/ak获取 base_url="https://api.siliconflow.cn/v1")response = client.chat.completions.create( model="Qwen/Qwen2-VL-72B-Instruct", messages=[ { "role": "user", "content": [ { "type": "text", "text": "Describe the image." }, { "type": "image_url", "image_url": { "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/dog.png" } } ] }], stream=True)for chunk in response: chunk_message = chunk.choices[0].delta.content print(chunk_message, end='', flush=True)
2.多图理解
import json
from openai import OpenAI
client = OpenAI(
api_key="您的 APIKEY", # 从https://cloud.siliconflow.cn/account/ak获取
base_url="https://api.siliconflow.cn/v1"
)
response = client.chat.completions.create(
model="Qwen/Qwen2-VL-72B-Instruct",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Identify the similarities between these images."
},
{
"type": "image_url",
"image_url": {
"url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/dog.png"
}
},
{
"type": "image_url",
"image_url": {
"url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/shark.jpg"
}
}
]
}],
stream=True
)
for chunk in response:
chunk_message = chunk.choices[0].delta.content
print(chunk_message, end='', flush=True)
对于图片、视频等视觉输入内容,模型会将其转化为token,与文本信息一并作为模型输出的上下文信息,因此也会一并进行计费。不同模型的视觉内容转化方式不同,以下为目前支持模型的转化方式。
Qwen/Qwen2-VL系列
规则:
Qwen2-VL最高支持像素是3584 * 3584= 12845056,最低支持像素是56 * 56 = 3136,会对先对每张图片长短边均放缩至28的倍数 (h * 28) * (w * 28)。如果不在最小像素和最大像素区间内,再等比缩放至该区间。
detail=low时将所有图片resize为448*448尺寸,最终对应256 token;
detail=high时等比缩放,首先将长宽按照最近的28倍数向上取整,然后再等比缩放至像素区间 (3136, 12845056),并保证长宽均为28整数倍。
示例:
224 * 448和1024 x 1024和3172 x 4096的图片,选择 detail=low 时,均消耗 256 tokens;
224 * 448的图片,选择 detail=high 时,因为 224 * 448 在像素区间内,且长宽均为28倍数,消耗 (224/28) * (448/28) = 8 * 16 = 128 tokens;
1024 * 1024的图片,选择detail=high时,将长宽按照28的倍数向上取整至 1036 * 1036,该数值在像素区间内,消耗 (1036/28) * (1036/28) = 1369 tokens;
3172 * 4096的图片,选择detail=high 时,将长宽按照28的倍数向上取整至3192 * 4116,该值超过最大像素,再将长宽等比例缩小至3136 * 4060,消耗 (3136/28) * (4060/28) = 16240 tokens。
OpenGVLab/InternVL2系列
规则:
InternVL2实际处理的像素以及消耗的tokens数与原始图片的长宽比例有关。最低处理像素为448 * 448,最高为12 * 448 * 448。
detail=low时将所有图片resize成448 * 448尺寸,最终对应 256 tokens;
detail=high时会根据长宽比例,将图片resize成长宽均为 448 的倍数,(h * 448) * (w * 448),且1 <= h * w <=12。
缩放的长宽h * w按照如下规则选择:
h和w均为整数,在满足1 <= h * w <= 12约束下,按照h * w从小到大的组合遍历;
对于当前 (h, w) 组合,如果原始图片长宽比例更接近h / w ,那么选择该 (h, w) 组合;
对于后续数值更大但是比例相同的 (h, w) 组合,如果原始图片像素大于 0.5 * h * w * 448 * 448,那么选择数值更大的 (h, w) 组合。
token消耗按照如下规则:
如果h * w = 1,那么消耗256 tokens;
如果h * w > 1,按448 * 448滑动窗口,每个窗口均额外消耗 256 token,一共 (h * w + 1) * 256 tokens。
示例:
224 * 448、1024 * 1024和2048 * 4096的图片,选择 detail=low时,均消耗 256 tokens;
224 * 448的图片,选择detail=high时,长宽比为1:2,会缩放至 448 x 896,此时h = 1, w = 2,消耗 (h * w + 1) * 256 = 768 tokens;
1024 * 1024 的图片,选择 detail=high 时,长宽比为1:1,会缩放至 1344 * 1344 (h = w = 3),因为 1024 * 1024 > 0.5 * 1344 * 1344. 此时 h = w = 3,消耗 (3 * 3 + 1) * 256 = 2560 tokens;
2048 * 4096的图片,选择detail=high时,长宽比为1:2,在满足 1 <= h * w <= 12条件下数值最大的 (h, w) 组合为h = 2, w = 4,所以会缩放至896 * 1792,消耗(2 * 4 + 1) * 256 = 2304 tokens。
Token工厂SiliconCloud
Qwen2.5(7B)、Llama3.1(8B)等免费用
作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。
除了Qwen2-VL,InternVL2,SiliconCloud已上架包括Qwen2.5-Coder-7B-Instruct、Qwen2.5-Math-72B-Instruct、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、Llama-3.1、GLM-4-9B-Chat在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。
其中,Qwen2.5(7B)、Llama3.1(8B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。
近期更新
• SiliconCloud模型微调及托管抢先体验
• SiliconCloud上线Qwen2.5-Coder/Math
• SiliconCloud API更新:FLUX.1收费版不限流
•10倍工程师编码工具:Cursor x SiliconCloud
• 分享ComfyUI BizyAir工作流,赢东京往返机票
• SiliconCloudx国产算力:Qwen2-72B仅¥1.00/M tokens
让超级产品开发者实现“Token自由”
邀请好友体验SiliconCloud,狂送2000万Token/人
邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群