硅基流动 2024年10月28日
SiliconCloud上线多模态模型Qwen2-VL、InternVL2:让生成式AI看清世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

硅基流动SiliconCloud上线了推理加速版多模态模型,包括Qwen2-VL和InternVL2,可用于图片内容解读、视觉智能体等生成式AI应用。该平台免去了模型部署门槛,提供快速推理速度和价格亲民的API服务,支持开发者自由对比体验各类大模型,最终为自己的生成式AI应用选择最佳实践。Qwen2-VL和InternVL2是目前开源视觉语言模型的领先者,在视觉理解、长视频理解、视觉智能体操作以及多语言支持方面表现出色。InternVL 2.0支持图像、视频、文本、语音、三维、医疗多种模态,在关键评测指标上比肩国际顶尖商用闭源模型。SiliconCloud平台还提供多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型,并提供免费使用的大模型API,让开发者实现“Token自由”。

🚀 **免去模型部署门槛,轻松调用API服务:** SiliconCloud 平台上线了 Qwen2-VL 和 InternVL2 模型系列,开发者无需进行复杂的部署操作,只需轻松调用相应的 API 服务即可在自己的应用中使用这些模型。

⚡️ **推理速度极快,提升用户体验:** SiliconCloud 平台上的 Qwen2-VL 和 InternVL2 模型输出速度极快,能够为生成式 AI 应用带来高效的用户体验,让用户快速获得模型的响应结果。

💰 **价格亲民,实现“Token 自由”:** SiliconCloud 提供多种开源大模型 API,其中 Qwen2.5 (7B)、Llama3.1 (8B) 等多个大模型 API 免费使用,让开发者无需担心研发阶段和大规模推广所带来的算力成本。

💪 **领先的多模态模型能力:** Qwen2-VL 和 InternVL2 是目前开源视觉语言模型的领先者,在视觉理解、长视频理解、视觉智能体操作以及多语言支持方面表现出色。InternVL 2.0 支持多种模态,在关键评测指标上比肩国际顶尖商用闭源模型。

💡 **自由对比体验,选择最佳实践:** SiliconCloud 平台支持开发者自由对比体验各类大模型,帮助开发者找到最适合自己应用场景的模型,并实现最佳实践。

📊 **多模态理解能力:** Qwen2-VL 和 InternVL2 可以理解图像、视频、文本、语音、三维、医疗等多种模态信息,为生成式 AI 应用提供更强大的能力。

🌐 **多语言支持:** Qwen2-VL 支持理解图像中的多种语言文本,包括英语、中文、欧洲语言、日语、韩语、阿拉伯语、越南语等,为全球用户提供服务。

原创 SiliconCloud 2024-10-17 15:49 北京

免去模型部署门槛,推理速度更快,价格亲民。

继上线阿里的Qwen2.5语言模型、数学模型与代码模型,以及上海人工智能实验室的InternLM2.5语言模型之后。今天,硅基流动SiliconCloud上线了推理加速版多模态模型,可用于图片内容解读、视觉智能体等生成式AI应用。

Playground传送门

Qwen2-VL-7B-Instruct(Pro):

https://cloud.siliconflow.cn/playground/chat/17885302591

InternVL2-8B(Pro):

https://cloud.siliconflow.cn/playground/chat/17885302594

API文档
https://docs.siliconflow.cn/features/vlm

与其他各类开源大模型一样,开发者在本地运行Qwen2-VL、InternVL2模型有较高部署门槛与成本。现在,SiliconCloud上线这两大模型系列后,免去了开发者的部署门槛,并在开发应用时轻松调用相应的API服务。

更重要的是,SiliconCloud平台上的Qwen2-VL、InternVL2输出速度极快,能为你的生成式AI应用带来更高效的用户体验。此外,平台还支持开发者自由对比体验各类大模型,最终为自己的生成式AI应用选择最佳实践。

模型能力及应用实例


Qwen2-VL与InternVL 2.0是目前开源视觉语言模型的领先者。

其中,基于Qwen2-VL具有以下特点:


此外,与最先进的开源多模态大语言模型相比,InternVL 2.0超越了大多数开源模型。InternVL 2.0支持图像、视频、文本、语音、三维、医疗多种模态,在关键评测指标比肩国际顶尖商用闭源模型,在MMMU(多学科问答)、通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)等评测中的性能媲美顶尖闭源模型。

现在,来分别感受下Qwen2-VL、InternVL2相关模型在SiliconCloud上的效果:

图文内容识别,唰地一下就准确且快速地识别了图片里的内容。


你也可以输入图片链接,直接识别图片内容。

数学几何求解也不在话下。

视觉化图表,Code Interpreter的应用。

文档内容解析。

当然,你还可以接入上述模型的API进行多图像理解、视频理解,SiliconCloud的Playgroud作为展示窗口,后续会支持上传视频内容。

使用示例

1.图片理解

import json  from openai import OpenAIclient = OpenAI(    api_key="您的 APIKEY", # 从https://cloud.siliconflow.cn/account/ak获取    base_url="https://api.siliconflow.cn/v1")response = client.chat.completions.create(        model="Qwen/Qwen2-VL-72B-Instruct",        messages=[        {            "role": "user",            "content": [                {                    "type": "text",                    "text": "Describe the image."                },                {                    "type": "image_url",                    "image_url": {                        "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/dog.png"                    }                }            ]        }],        stream=True)for chunk in response:    chunk_message = chunk.choices[0].delta.content    print(chunk_message, end='', flush=True)


2.多图理解

import json from openai import OpenAI
client = OpenAI( api_key="您的 APIKEY", # 从https://cloud.siliconflow.cn/account/ak获取 base_url="https://api.siliconflow.cn/v1")
response = client.chat.completions.create( model="Qwen/Qwen2-VL-72B-Instruct", messages=[ { "role": "user", "content": [ { "type": "text", "text": "Identify the similarities between these images." }, { "type": "image_url", "image_url": { "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/dog.png" } }, { "type": "image_url", "image_url": { "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/shark.jpg" } } ] }], stream=True)
for chunk in response: chunk_message = chunk.choices[0].delta.content print(chunk_message, end='', flush=True)



对于图片、视频等视觉输入内容,模型会将其转化为token,与文本信息一并作为模型输出的上下文信息,因此也会一并进行计费。不同模型的视觉内容转化方式不同,以下为目前支持模型的转化方式。

Qwen/Qwen2-VL系列


规则:

Qwen2-VL最高支持像素是3584 * 3584= 12845056,最低支持像素是56 * 56 = 3136,会对先对每张图片长短边均放缩至28的倍数 (h * 28) * (w * 28)。如果不在最小像素和最大像素区间内,再等比缩放至该区间。

    detail=low时将所有图片resize为448*448尺寸,最终对应256 token;

    detail=high时等比缩放,首先将长宽按照最近的28倍数向上取整,然后再等比缩放至像素区间 (3136, 12845056),并保证长宽均为28整数倍。


示例:


OpenGVLab/InternVL2系列


规则:

InternVL2实际处理的像素以及消耗的tokens数与原始图片的长宽比例有关。最低处理像素为448 * 448,最高为12 * 448 * 448。

    detail=low时将所有图片resize成448 * 448尺寸,最终对应 256 tokens;

    detail=high时会根据长宽比例,将图片resize成长宽均为 448 的倍数,(h * 448) * (w * 448),且1 <= h * w <=12。

      缩放的长宽h * w按照如下规则选择:


    token消耗按照如下规则:


示例:


Token工厂SiliconCloud

Qwen2.5(7B)、Llama3.1(8B)等免费用


作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

除了Qwen2-VL,InternVL2,SiliconCloud已上架包括Qwen2.5-Coder-7B-Instruct、Qwen2.5-Math-72B-InstructQwen2.5-7B/14B/32B/72BFLUX.1DeepSeek-V2.5InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallLlama-3.1GLM-4-9B-Chat在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。

其中,Qwen2.5(7B)、Llama3.1(8B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

近期更新

• SiliconCloud模型微调及托管抢先体验
 SiliconCloud上线Qwen2.5-Coder/Math
• SiliconCloud API更新:FLUX.1收费版不限流
10倍工程师编码工具:Cursor x SiliconCloud
• 分享ComfyUI BizyAir工作流,赢东京往返机票
• SiliconCloudx国产算力:Qwen2-72B仅¥1.00/M tokens

让超级产品开发者实现“Token自由”
邀请好友体验SiliconCloud
狂送2000万Token/人
邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态模型 推理加速 生成式AI Qwen2-VL InternVL2 SiliconCloud
相关文章