魔搭ModelScope社区 2024年12月15日
魔搭社区每周速递(12.08-12.14)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭ModelScope社区有诸多进展,包括大量模型、数据集、应用的上新,以及多篇文章发布,涵盖多个领域的创新成果。

📟1599个模型,如Llama 3.3、deepseek-vl2等

📁46个数据集,如P-MMEval、一招金融数据集等

🎨67个创新应用,如Llama-3.3-70B-Instruct等

📄 8篇内容,涉及多模态小模型、开源模型等

2024-12-15 19:26 浙江

模型上新1599个,数据集上新46个,应用新增67个,文章发布8篇

?魔搭ModelScope本期社区进展:

?1599个模型:Llama 3.3、deepseek-vl2、DeepSeek-V2.5-1210、Ivy-VL、Tora_T2V_diffusers、InternViT-6B-448px-V2_5等;

?46个数据集:P-MMEval、一招金融数据集、BiomedParseData、subsplease_animes等;

?67个创新应用Llama-3.3-70B-Instruct、ShowUI、通用交互式图像编辑和生成等

? 8内容:


01


精选模型

Llama 3.3

Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出),指令调优的纯文本模型针对多语言对话用例进行了优化,调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。



模型链接:

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct


代码示例:

transformers推理

import transformersimport torchfrom modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")
pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto",)
messages = [ {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"}, {"role": "user", "content": "Who are you?"},]
outputs = pipeline( messages, max_new_tokens=256,)print(outputs[0]["generated_text"][-1])

更多详情请见:

Llama 3.3开源!70B媲美405B性能,支持128K上下文



DeepSeek-VL2

DeepSeek-VL2 是DeepSeek最新推出的MoE 视觉-语言模型,它在性能上显著超越了其前身DeepSeek-VL。DeepSeek-VL2在各种任务中展现出卓越的能力,包括但不限于视觉问题回答、OCR、文档/表格/图表理解以及视觉定位。DeepSeek-VL2 系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别激活了10亿、28亿和45亿参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2在激活参数相似或更少的情况下,实现了具有竞争力或最先进的性能。


模型链接:

https://modelscope.cn/models/deepseek-ai/deepseek-vl2


代码推理:

# pip install git+https://github.com/deepseek-ai/DeepSeek-VL2.git# pip install "transformers<4.42"
import torchfrom modelscope import AutoModelForCausalLM, snapshot_download
from deepseek_vl.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLMfrom deepseek_vl.utils.io import load_pil_images

# specify the path to the modelmodel_path = snapshot_download("deepseek-ai/deepseek-vl2-small")vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)tokenizer = vl_chat_processor.tokenizer
vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()
## single image conversation exampleconversation = [ { "role": "<|User|>", "content": "<image>\n<|ref|>The giraffe at the back.<|/ref|>.", "images": ["./images/visual_grounding.jpeg"], }, {"role": "<|Assistant|>", "content": ""},]
# load images and prepare for inputspil_images = load_pil_images(conversation)prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True, system_prompt="").to(vl_gpt.device)
# run image encoder to get the image embeddingsinputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
# run the model to get the responseoutputs = vl_gpt.language.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=512, do_sample=False, use_cache=True)
answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)print(f"{prepare_inputs['sft_format'][0]}", answer)


Ivy-VL

Ivy-VL 是由 AI Safeguard 联合CMU与斯坦福开发的⼀款轻量级多模态模型,秉承⾼效、轻量化和强性能的设计理念,聚焦于多模态⼤模型在端侧部署的需求。

Ivy-VL 的参数量仅为 3B,极⼤地降低了计算资源需求,在端侧设备上可实现实时推理。Ivy-VL在多个多模态榜单中夺得 SOTA成绩,在专业多模态模型评测榜单OpenCompass上面,做到了 4B 以下开源模型第⼀的性能。



模型链接:

https://modelscope.cn/models/AI-Safeguard/Ivy-VL-llava



Tora_T2V_diffusers

Tora是由阿里云技术团队推出的首个面向轨迹的扩散变换器框架,通过集成文本、视觉和轨迹条件,展现了在生成高质量、可控运动视频内容方面的突破性进展,其设计允许精确控制视频内容的动态,实验结果证明了其在高运动保真度和物理世界运动模拟方面的卓越性能。


模型链接:https://modelscope.cn/models/Alibaba_Research_Intelligence_Computing/Tora_T2V_diffusers


02


数据集推荐


P-MMEval

多语言基准 P-MMEval,涵盖有效的基础数据集和能力专业化数据集。我们扩展了现有的基准,确保所有数据集的语言覆盖范围一致,并在多种语言之间提供并行样本,支持来自 8 个语系(即 en、zh、ar、es、ja、ko、th、fr、pt、vi)的多达 10 种语言。因此,P-MMEval 有助于对多语言能力进行整体评估并对跨语言可迁移性进行比较分析。

数据集链接:

https://modelscope.cn/datasets/Qwen/P-MMEval


一招金融数据集

一招数据集由哈尔滨工业大学&招商银行联合推出,是一个2TB高质量多模态的大模型训练数据集(包含936GB中文文本数据集,100GB英文文本数据集和1TB的高质量多模态数据集)。该数据集不仅包含广泛的金融事件、市场动态,还涵盖各种金融产品和交易模式,以确保模型在复杂的金融环境中展现出卓越的泛化能力和预测准确性。

数据集链接:

https://modelscope.cn/datasets/CMB_AILab/YiZhao-FinDataSet


BiomedParseData

BiomedParseData 是生物医学领域数据集,旨在支持和促进生物医学信息的解析与研究。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/BiomedParseData


subsplease_animes

subsplease_animes 是一个专注于动漫字幕的数据集,用于支持动漫领域的字幕生成和语言处理研究。

数据集链接:

https://modelscope.cn/datasets/deepghs/subsplease_animes



03


精选应用



Llama-3.3-70B-Instruct

Llama 3.3 是一个70B参数的多语言自回归语言模型,通过SFT和RLHF调优,支持多语言文本和代码的生成,具备128K的上下文长度,覆盖多种语言,训练数据超过15T tokens。


体验直达:

https://modelscope.cn/studios/LLM-Research/Llama-3.3-70B-Instruct


ShowUI

上传一张图+一句话即可检测到图像上的坐标。


体验直达:

https://modelscope.cn/studios/AI-ModelScope/ShowUI



通用交互式图像编辑和生成

你可以上传图像进行编辑,或者通过输入'@'来生成图像并从画廊中选择,但请注意,当前模型仅支持英文指令。

体验直达:

https://modelscope.cn/studios/iic/ACE-Chat



04


社区精选文章





?点击关注ModelScope公众号获取

更多技术信息~


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

魔搭ModelScope 模型 数据集 应用 文章
相关文章