前言
前面尝试了使用Elevenlabs MCP实现文本转语音和音效生成,从生成的结果看除了英文的文本转语音还不错,其他的效果真的很一般。这两天又了解到一个不错的国内平台,听说是扛把子级别的而且提供了MCP服务,今天来体验一下效果。
对以往实战案例感兴趣的小伙伴也可以看往期:
- 【Cursor实战】Cursor+Figma MCP通过对话直接生成设计稿【Cursor实战】如何快速实现3D动画效果【Cursor实战】使用Cursor+高德MCP成为行程规划达人【Cursor实战】Cursor+两个MCP复刻一个简单的Manus【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成
关于MiniMax
MiniMax简介
MiniMax是一家成立于2021年12月的领先通用人工智能公司,专注于与用户共创智能。公司自主研发了多模态通用大模型,涵盖语音、音乐、图像和视频等多个领域。如果对MiniMax不了解,可以了解一下海螺AI,海螺AI就是MiniMax推出的产品。
MiniMax有国内版和国外版本:
- 国内官网地址:www.minimaxi.com国际官网地址:www.minimax.io
注册登录
使用MiniMax前需要先进行注册登录
注册登录成功后即可进入MiniMax后台管理系统
限制
充值和声音克隆需要完成实名认证
优势
国内版 新人注册赠送 ¥15代金券,有效期为 2个月
申请App Key
官网地址:platform.minimaxi.com/user-center…
点击【接口密钥】进入接口密钥列表,MiniMax默认会创建一个API Key
点击【创建新的密钥】创建一个新API Key,输入密钥名称点击【创建密钥】
创建完成后,复制密钥备用,API Key需要妥善保存,后面将不可查看
新创建的密钥可在密钥列表中查看
获取MCP
mcp.so官网:mcp.so/
在mcp.so官网精选板块就可以看到MiniMax MCP,如果找不到也可以直接进行搜索
进入MiniMax MCP详情查看接入方式
在Cursor中配置MCP
进入Cursor设置页面找到 MCP,点击【Add new global MCP Server】,打开mcp.json文件
{ "mcpServers": { "MiniMax": { "command": "uvx", "args": [ "minimax-mcp" ], "env": { "MINIMAX_API_KEY": "<insert-your-api-key-here>", "MINIMAX_MCP_BASE_PATH": "<local-output-dir-path>", "MINIMAX_API_HOST": "https://api.minimaxi.chat", "MINIMAX_API_RESOURCE_MODE": "<optional, [url|local], url is default, audio/image/video are downloaded locally or provided in URL format>" } }, }}
配置项说明:
- MINIMAX_API_KEY:申请的API KeyMINIMAX_MCP_BASE_PATH:存放生成音频的文件夹路径MINIMAX_API_HOST:国内版url为
https://api.minimax.chat
,国外版url为 https://api.minimaxi.chat
MINIMAX_API_RESOURCE_MODE:生成的资源格式,可以是url或local,默认为url以链接显示返回,local会下载资源到本地配置完成后等待MCP状态变为绿色即可
使用过程
文本朗读
为了对比效果,这里使用了和上一期相同的文本内容,输入提示词
使用英文朗读@a2a.md 并将音频保存到@text-audio目录下
生成完后即可在目录下看到生成的音频文件
试听了一下,效果挺不错,有感情有停顿,不逊于Elevenlabs。下面再试一下中文朗读,同样输入提示词如下:
使用中文朗读@chinese.md 并将音频保存到@text-audio目录下
试了后效果真不错,是地地道道的中文,并非之前的蹩脚中文。
声音克隆
1. 使用声音克隆注意声音主体人格授权等法律法规
2. 克隆的声音建议在10秒以上
3. 克隆声音需要进行实名认证
使用声音克隆我们需要准备一个克隆目标的音频文件和一段文本
使用 哪吒之魔童降世申公豹-语音.mp3 克隆@voive.md 并将音频保存到@voice-clone目录下
如果你没有进行实名认证,使用声音克隆多半会遇到下面报错信息
解决这个问题需要我们到MinMax管理后台进行实名认证,选择自己的实名认证方式并按要求完成实名认证和银行卡信息填写
实名认证完成后就可以正常完成声音克隆了
这里可以试听下效果
除了上面克隆声音的方式,也可以到M inMax管理后台进行声音克隆
播客朗读
我需要获取一个站点内容并对文章内容进行总结,请按照要求帮我完成任务:- 阅读这个站点的全部内容:https://developer.mozilla.org/zh-CN/docs/Web/Progressive_web_apps/Guides/What_is_a_progressive_web_app- 项目工作目录@article-audio - 总结文章内容输出到 pwa.md 文件, 总结要求遵循{总结要求}## 总结要求- 按照文章目录的不同模块进行总结,保留核心观点,不要过度精简
生成完总结后,Cursor预测到我可能需要将总结生成语音就直接帮我完成了文本转语音操作,不过这不是我想要的效果,先留着吧
接下来将生成的文章总结转为HTML
根据@pwa.md文件内容生成一个精美的网页,使用HTML+Tailwindcsss- 舒适的视觉比例,清新柔和的渐变配色,恰到好处的留白- 苹果顶级设计师风格
生成完后,双击【index.html】在浏览器中预览,效果如下:
接下来为每个模块添加语音朗读功能
根据@pwa.md中的模块生成每个模块对应的音频,然后把这些MP3文件嵌入到刚刚生成的网页中,遵循以下要求:- 当一个模块的音频播放完成后自动切换网页位置到下一个模块- 每个模块只需要呈现播放按钮,无需显示播放进度条
Cursor按照要求对每段文本进行了转语音操作,并且将音频插入到了对应的段落,点击播放按钮可以正常播放音频,双击【index.html】在浏览器中预览,效果如下:
最后将页面部署到yourware:4bl960km6b.app.yourware.so/,部署后的效果如下:
对yourware还不了解或者感兴趣的小伙伴可以查看往期:【Cursor实战】如何快速实现3D动画效果
总结
先看一下三个示例后API费用消耗情况:
- 文本转语音示例一共生成了19个音频约18分钟一共消耗了3.1元声音克隆消耗了近10元
声音克隆还是非常消耗额度的,使用时需时刻留意账户余额,体验完三个示例后余下的额度也所剩无几了。
MiniMax目前除了文本转语语音、声音克隆还支持生成视频、文生图等功能,目前对中英文支持的都不错,感兴趣的小伙伴可以自行体验。
项目地址
项目放到Github了,感兴趣的小伙伴可以自行玩耍
Github地址:github.com/MisterZhouZ…
友情提示
见原文:【Cursor实战】Cursor+MiniMax MCP赋能文章阅读
本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。