掘金 人工智能 05月18日 19:58
【Cursor实战】Cursor+MiniMax MCP赋能文章阅读
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文体验了MiniMax MCP的文本转语音和声音克隆功能。MiniMax是一家国内领先的通用人工智能公司,提供多模态大模型服务。注册登录后,可以申请API Key并获取MCP。在Cursor中配置MCP后,体验了文本朗读功能,中英文效果均不错,尤其中文朗读摆脱了以往的生硬感。声音克隆功能需要实名认证,且消耗额度较高。此外,还体验了播客朗读功能,将文章内容总结并生成带有语音朗读的网页。MiniMax还支持生成视频、文生图等功能,值得探索。

🔑MiniMax是一家领先的通用人工智能公司,提供包括文本转语音、声音克隆、生成视频、文生图等多模态服务,其国内版本注册赠送代金券。

🌐体验了MiniMax MCP的文本朗读功能,无论是英文还是中文,效果都非常出色,中文朗读摆脱了以往AI语音的生硬感,更加自然流畅。

🎙️声音克隆功能需要进行实名认证,并且消耗额度较高,建议用户在使用前留意账户余额。声音克隆建议使用10秒以上的音频文件。

📰体验了播客朗读功能,通过Cursor将网页文章内容总结并生成带有语音朗读的网页,实现了文章内容的模块化语音呈现和自动切换。

前言

前面尝试了使用Elevenlabs MCP实现文本转语音和音效生成,从生成的结果看除了英文的文本转语音还不错,其他的效果真的很一般。这两天又了解到一个不错的国内平台,听说是扛把子级别的而且提供了MCP服务,今天来体验一下效果。

对以往实战案例感兴趣的小伙伴也可以看往期:

关于MiniMax

MiniMax简介

MiniMax是一家成立于2021年12月的领先通用人工智能公司,专注于与用户共创智能。公司自主研发了多模态通用大模型,涵盖语音、音乐、图像和视频等多个领域。如果对MiniMax不了解,可以了解一下海螺AI,海螺AI就是MiniMax推出的产品。

MiniMax有国内版和国外版本:

注册登录

使用MiniMax前需要先进行注册登录

注册登录成功后即可进入MiniMax后台管理系统

限制

充值和声音克隆需要完成实名认证

优势

国内版 新人注册赠送 ¥15代金券,有效期为 2个月

申请App Key

官网地址:platform.minimaxi.com/user-center…

点击【接口密钥】进入接口密钥列表,MiniMax默认会创建一个API Key

点击【创建新的密钥】创建一个新API Key,输入密钥名称点击【创建密钥

创建完成后,复制密钥备用,API Key需要妥善保存,后面将不可查看

新创建的密钥可在密钥列表中查看

获取MCP

mcp.so官网:mcp.so/

在mcp.so官网精选板块就可以看到MiniMax MCP,如果找不到也可以直接进行搜索

进入MiniMax MCP详情查看接入方式

在Cursor中配置MCP

进入Cursor设置页面找到 MCP,点击【Add new global MCP Server】,打开mcp.json文件

{  "mcpServers": {    "MiniMax": {      "command": "uvx",      "args": [        "minimax-mcp"      ],      "env": {        "MINIMAX_API_KEY": "<insert-your-api-key-here>",        "MINIMAX_MCP_BASE_PATH": "<local-output-dir-path>",        "MINIMAX_API_HOST": "https://api.minimaxi.chat",        "MINIMAX_API_RESOURCE_MODE": "<optional, [url|local], url is default, audio/image/video are downloaded locally or provided in URL format>"      }    },  }}

配置项说明:

配置完成后等待MCP状态变为绿色即可

使用过程

文本朗读

为了对比效果,这里使用了和上一期相同的文本内容,输入提示词

使用英文朗读@a2a.md 并将音频保存到@text-audio目录下

生成完后即可在目录下看到生成的音频文件

试听了一下,效果挺不错,有感情有停顿,不逊于Elevenlabs。下面再试一下中文朗读,同样输入提示词如下:

使用中文朗读@chinese.md 并将音频保存到@text-audio目录下

试了后效果真不错,是地地道道的中文,并非之前的蹩脚中文。

声音克隆

1. 使用声音克隆注意声音主体人格授权等法律法规

2. 克隆的声音建议在10秒以上

3. 克隆声音需要进行实名认证

使用声音克隆我们需要准备一个克隆目标的音频文件和一段文本

使用 哪吒之魔童降世申公豹-语音.mp3 克隆@voive.md 并将音频保存到@voice-clone目录下

如果你没有进行实名认证,使用声音克隆多半会遇到下面报错信息

解决这个问题需要我们到MinMax管理后台进行实名认证,选择自己的实名认证方式并按要求完成实名认证和银行卡信息填写

实名认证完成后就可以正常完成声音克隆了

这里可以试听下效果

除了上面克隆声音的方式,也可以到M inMax管理后台进行声音克隆

播客朗读

我需要获取一个站点内容并对文章内容进行总结,请按照要求帮我完成任务:- 阅读这个站点的全部内容:https://developer.mozilla.org/zh-CN/docs/Web/Progressive_web_apps/Guides/What_is_a_progressive_web_app- 项目工作目录@article-audio - 总结文章内容输出到 pwa.md 文件, 总结要求遵循{总结要求}## 总结要求- 按照文章目录的不同模块进行总结,保留核心观点,不要过度精简

生成完总结后,Cursor预测到我可能需要将总结生成语音就直接帮我完成了文本转语音操作,不过这不是我想要的效果,先留着吧

接下来将生成的文章总结转为HTML

根据@pwa.md文件内容生成一个精美的网页,使用HTML+Tailwindcsss- 舒适的视觉比例,清新柔和的渐变配色,恰到好处的留白- 苹果顶级设计师风格

生成完后,双击【index.html】在浏览器中预览,效果如下:

接下来为每个模块添加语音朗读功能

根据@pwa.md中的模块生成每个模块对应的音频,然后把这些MP3文件嵌入到刚刚生成的网页中,遵循以下要求:- 当一个模块的音频播放完成后自动切换网页位置到下一个模块- 每个模块只需要呈现播放按钮,无需显示播放进度条

Cursor按照要求对每段文本进行了转语音操作,并且将音频插入到了对应的段落,点击播放按钮可以正常播放音频,双击【index.html】在浏览器中预览,效果如下:

最后将页面部署到yourware:4bl960km6b.app.yourware.so/,部署后的效果如下:

对yourware还不了解或者感兴趣的小伙伴可以查看往期:【Cursor实战】如何快速实现3D动画效果

总结

先看一下三个示例后API费用消耗情况:

声音克隆还是非常消耗额度的,使用时需时刻留意账户余额,体验完三个示例后余下的额度也所剩无几了。

MiniMax目前除了文本转语语音、声音克隆还支持生成视频、文生图等功能,目前对中英文支持的都不错,感兴趣的小伙伴可以自行体验。

项目地址

项目放到Github了,感兴趣的小伙伴可以自行玩耍

Github地址:github.com/MisterZhouZ…

友情提示

见原文:【Cursor实战】Cursor+MiniMax MCP赋能文章阅读

本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax MCP 文本转语音 声音克隆 Cursor AI工具
相关文章