IT之家 01月15日
Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面发布Kimi多模态图片理解模型API,完善多模态能力。该模型具备图像识别、文字识别和理解能力,实行按量计费,且有一些功能支持与限制。

🎯Vision模型具备图像识别能力,能区分相似但不同的对象。

📄在文字识别和理解场景中,比普通软件更准确。

💲模型按量计费,价格根据所选模型不同而有差异。

🚫存在一些暂未支持或部分支持的功能。

IT之家 1 月 15 日消息,月之暗面今日发布了 Kimi 多模态图片理解模型 API,全新多模态图片理解模型 moonshot-v1-vision-preview(以下简称“Vision 模型”)完善了 moonshot-v1 模型系列的多模态能力。

模型能力说明

图像识别

Vision 模型具备图像识别能力,能够识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。

下图示例中,官方拼凑了 16 张相似的人眼较难区分的蓝莓松饼和吉娃娃图片,由 Vision 模型来识别并按顺序标记图片类型,无论是蓝莓松饼还是吉娃娃,模型都能精确地区分和识别

文字识别和理解

Vision 模型具备高级图像识别能力,在 OCR 文字识别和图像理解场景中,比普通的文件扫描和 OCR 识别软件更加准确,例如收据单 / 快递单等潦草的手写内容都可以准确识别

以这张《某学生期末考试成绩》柱状图为例,官方让模型提取分析考试成绩,并从美学风格的角度分析一下该柱状图。Vision 模型也能够精准地识别出柱状图中每个科目名称对应的分数数值并做分数对比,同时可以识别出该柱状图的样式格式和颜色等。

模型计费

Vision 模型实行按量计费方式,单张图片按 1024 tokens 合并计算在 Input 请求的 tokens 用量中,模型调用的价格根据选择的模型而不同,IT之家附具体区分如下:

模型计费单位价格
moonshot-v1-8k-vision-preview1M tokens¥12.00
moonshot-v1-32k-vision-preview1M tokens¥24.00
moonshot-v1-128k-vision-preview1M tokens¥60.00

模型限制说明

Vision 视觉模型支持的特性包括:

以下功能暂未支持或部分支持:

其他平台更新

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi多模态模型 图像识别 文字理解 按量计费
相关文章