魔搭ModelScope社区 2024年11月10日
魔搭社区每周速递(10.27-11.09)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭社区有众多进展,包括多种模型、数据集、应用和文章。涵盖图像生成、语音合成、多模态等领域,成果丰富多样。

📟4221个模型,如Meissonic等,涉及多种功能

📁112个数据集,如Infinity-MM等,质量高且多样

🎨95个创新应用,如maskgct语音复刻等,应用场景广泛

📄14篇文章,涵盖多领域技术内容和实践心得

2024-11-10 17:55 浙江

上新4221模型、112个数据集、95个应用、14篇应用文章

?魔搭ModelScope本期社区进展:

?4221个模型:Meissonic、stable-diffusion-3.5-medium、TeleChat2-7B、InstantIR、MaskGCT、OmniGen-v1、bce-reranker-base_v1-GGUF

?112个数据集:Infinity-MM、SafeMTData、MMBench-Video、animeJP、Debatts-Data、CV-Starter-main

?95个创新应用maskgct语音复刻、AI对话播客、RapidOCRDemo、

wd-tagger等;

? 14文章:

01


精选模型


Meissonic

由阿里巴巴集团、Skywork AI和香港科技大学及其广州校区、浙江大学、加州大学伯克利分校联合的研究团队提出了一种名为Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

Meissonic旨在通过融合先进的技术和方法来提升非自回归图像生成器(MIM)在文本到图像(T2I)合成任务中的性能和效率。Meissonic主要通过引入改进的Transformer架构、高级位置编码策略以及动态采样条件,实现了对MIM技术的重大革新。


模型链接:

https://modelscope.cn/models/AI-ModelScope/Monetico


运行webui:

clone代码并安装依赖

git clone https://www.modelscope.cn/studios/MeissonFlow/meissonic.gitcd meissonicpip install -r requirements.txt


运行app.py

# 魔搭社区运行gradio,需要指定域名处dsw路径export GRADIO_ROOT_PATH=/dsw-xxx/proxy/7860/python app.py


MaskGCT

MaskGCT是香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型。该模型在包含10万小时多语言数据的Emilia数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。MaskGCT利用全非自回归掩码生成编解码器Transformer,无需文本与语音的对齐监督和音素级持续时间预测。MaskGCT通过文本预测从语音自监督学习(SSL)模型中提取的语义标记,然后基于这些语义标记预测声学标记,实现了高质量的文本到语音合成。


模型链接:

https://modelscope.cn/models/amphion/MaskGCT


OmniGen-v1

智源推出的扩散模型架构OmniGen,一种新的用于统一图像生成的多模态模型。模型能够从视频帧中识别和生成场景、动作和对象,适用于视频分析、内容审核、自动标注等多种应用场景。通过使用OmniGen,开发者可以在视频处理领域实现更高效和准确的AI解决方案。


模型链接:

https://modelscope.cn/models/BAAI/OmniGen-v1


通过 Github 安装(推荐):

    git clone https://github.com/staoxiao/OmniGen.gitcd OmniGenpip install -e .
    或者通过 pypi:
      pip install OmniGen

      一些示例:

        from OmniGen import OmniGenPipelinefrom modelscope import snapshot_download
        model_dir = snapshot_download("BAAI/OmniGen-v1")
        pipe = OmniGenPipeline.from_pretrained(model_dir)
        # Text to Imageimages = pipe( prompt="A curly-haired man in a red shirt is drinking tea.", height=1024, width=1024, guidance_scale=2.5, seed=0,)images[0].save("example_t2i.png") # save output PIL Image
        # Multi-modal to Image# In prompt, we use the placeholder to represent the image. The image placeholder should be in the format of <img><|image_*|></img># You can add multiple images in the input_images. Please ensure that each image has its placeholder. For example, for the list input_images [img1_path, img2_path], the prompt needs to have two placeholders: <img><|image_1|></img>, <img><|image_2|></img>.images = pipe( prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>." input_images=["./imgs/test_cases/two_man.jpg"] height=1024, width=1024, separate_cfg_infer=False, # if OOM, you can set separate_cfg_infer=True guidance_scale=3, img_guidance_scale=1.6)images[0].save("example_ti2i.png") # save output PIL image


        02


        数据集推荐


        Infinity-MM

        Infinity-MM是由智源研究院开源的千万级多模态指令数据集,包含数千万个样本,数据规模达4300万条,数据量达10TB,通过质量过滤和去重,确保了其数据的高质量和多样性。


        Infinity-MM基于智源提出的一种基于开源模型和标签体系的合成数据生成方法,能够生成高质量的指令数据并有效地扩大指令数据集的规模。基于 Infinity-MM成功训练了一个 20 亿参数的多模态模型 Aquila-VL-2B,在同规模模型中取得了最先进的性能。


        数据集链接:

        https://www.modelscope.cn/datasets/BAAI/Infinity-MM


        SafeMTData

        由上海交通大学,上海人工智能实验室和北京航空航天大学学者联合推出的首个多轮安全对齐数据集,数据集包含两个主要部分:Attack_600和SafeMTData_1K。


        Attack_600是一个包含600个有害多轮查询的数据集,用于检测大型语言模型(LLMs)在多轮对话中的安全漏洞,基于Harmbench扩展,每个查询有3种攻击路径。SafeMTData_1K包含1680个安全对话,旨在训练LLMs识别和拒绝有害查询,避免数据污染。这两个数据集对于评估和提升LLMs的安全性至关重要。


        数据集链接:

        https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/SafeMTData


        MMBench-Video

        MMBench-Video 是由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的一个针对视频理解任务设计的全新长视频、多镜头基准评测数据集,涵盖了广泛的视频内容和细粒度能力评估。基准测试包含从YouTube收集的600多个长视频,涵盖新闻、体育等16个主要类别,旨在评估MLLMs的时空推理能力。与传统的视频问答基准不同,MMBench-Video通过引入长视频和高质量的人工标注问答对,弥补了现有基准在时序理解和复杂任务处理方面的不足。


        数据集链接:

        https://www.modelscope.cn/datasets/BAAI/Infinity-MM


        Debatts-Data 数据集是第一个用于富有表现力的文本转语音合成的汉语反驳语音数据集。它由来自互联网上各种视频平台和播客的大量专业汉语语音数据构成。野外收集方法确保了反驳语音的真实自然。此外,该数据集还包含转录、持续时间和风格嵌入的注释。


        数据集链接:

        https://modelscope.cn/datasets/amphion/Debatts-Data



        03


        精选应用





        maskgct语音复刻

        MaskGCT支持文本到语音的转换任务,支持生成高质量的语音输出,适用于语音合成和语音识别等多种应用场景。


        体验直达:

        https://modelscope.cn/studios/amphion/maskgct




        AI对话播客(输入网页或PDF即可生成一档对话播客节目)

        结合不同的开源模型,例如Qwen2.5-72B-Instruct, CosyVoice-300M)等,将PDF文件(比如论文paper),或者网页URL内容,转换成为有趣的播客


        体验直达:

        https://www.modelscope.cn/studios/modelscope/open-notebooklm-demo






        04


        社区精选文章



        ?点击关注ModelScope公众号获取

        更多技术信息~



        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        魔搭社区 模型 数据集 应用 文章
        相关文章