魔搭ModelScope社区 01月06日
魔搭社区每周速递(12.29-1.4)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭ModelScope社区有诸多进展,包括众多模型、数据集、应用的上新及文章发布。涵盖多种领域,如GUI交互、医学推理、边缘部署等。

🎯828个模型,如Cogagent-9b等,涉及多种任务和场景

📚72个数据集,如lmsys_chat_1m_clean等,助力相关研究

🎉61个创新应用,如mirau-14b-demo等,提供多样体验

📄9篇文章,涵盖多个主题,如模型开源、课程开启等

2025-01-05 17:31 浙江

模型上新828,数据集上新72,应用上新61,文章发布9篇

?魔搭ModelScope本期社区进展:

?828个模型:Cogagent-9b、SmallThinker-3B-Preview、HuatuoGPT-o1系列等;

?72个数据集:lmsys_chat_1m_clean、reasoning-1-1k、LaTeX公式OCR识别数据集等;

?61个创新应用mirau-14b-demo、GPT-SoVITS V2 Taffy语音在线生成、集体照人脸识别与查询分割(复旦MSE)等

? 9内容:

01


精选模型


Cogagent-9b-20241220

CogAgent-9B是智谱AI基于GLM-4V-9B训练的专用Agent任务模型,专注于通过屏幕截图预测下一步GUI操作,无需HTML等文本表征。它能够结合历史操作执行用户指定的任务,适用于个人电脑、手机和车机设备等多种GUI交互场景。相较于2023年12月的第一版,CogAgent-9B-20241220在GUI感知、推理准确性、动作空间、任务普适性和泛化性上显著提升,并支持中英文双语交互。


模型链接:

https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220


运行模型

代码下载

git clone https://github.com/THUDM/CogAgent.gitcd CogAgent


模型下载

modelscope download --model ZhipuAI/cogagent-9b-20241220 --local_dir ./cogagent

CLI模型推理

python inference/cli_demo.py --model_dir ./cogagent --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

更多详情请见:

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景


HuatuoGPT-o1系列

HuatuoGPT-o1 是一款为高级医学推理而设计的医学大型语言模型。它在提供最终回答之前,会生成一个复杂的思维过程,进行反思和提炼推理。


模型链接:

    https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-7B

    https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-8B

    https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-70B

    https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-72B


示例代码:

以 HuatuoGPT-o1-7B 推理为例

from modelscope import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B",torch_dtype="auto",device_map="auto")tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B")
input_text = "How to stop a cough?"messages = [{"role": "user", "content": input_text}]
inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False,add_generation_prompt=True), return_tensors="pt").to(model.device)outputs = model.generate(**inputs, max_new_tokens=2048)print(tokenizer.decode(outputs[0], skip_special_tokens=True))



SmallThinker-3B-Preview

SmallThinker-3B-Preview是一个基于Qwen2.5-3b-Instruct模型微调的针对边缘部署进行优化的新推理模型,为资源受限设备上的人工智能任务提供了显著的加速。它作为更大的QwQ-32B-Preview的草稿模型,在 llama.cpp 中可以获得 70% 的速度提升(从每秒 40 个 token 提升到每秒 70 个 token)。


模型链接:

https://www.modelscope.cn/models/PowerInfer/SmallThinker-3B-Preview



02


数据集推荐



lmsys_chat_1m_clean

包含100万条清洁的中文聊天对话记录,用于支持自然语言处理和对话系统的研究与开发。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/lmsys_chat_1m_clean


reasoning-1-1k

包含1000个问题,旨在提升模型的逻辑推理能力。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/reasoning-1-1k


LaTeX公式OCR识别数据集

旨在支持和提升OCR技术在识别和处理LaTeX格式的数学公式和科学文档方面的表现。该数据集对于自然语言处理和文档分析领域的研究与应用具有重要价值。

数据集链接:

https://modelscope.cn/datasets/xmatrix/OCR_Synthetic_LaTeX


03


精选应用



mirau-14b-demo

沉浸式体验剧本,支持文字输入,共有三个角色选择体验。

体验直达:

https://modelscope.cn/studios/mouseEliauk/mirau-14b-demo



GPT-SoVITS V2 Taffy语音在线生成

提供文本到语音的转换服务,用户可以在这个创空间中体验先进的语音合成技术。

体验直达:

https://modelscope.cn/studios/cynika/GPT-SoVITS-v2-taffy



集体照人脸识别与查询分割

支持在集体照片中进行人脸检测和识别。

体验直达:

https://modelscope.cn/studios/funcity159/GroupPhotoFaceRecognition



04


社区精选文章






?点击关注ModelScope公众号获取

更多技术信息~




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

魔搭ModelScope 模型 数据集 应用 文章
相关文章