前言
可能AI用久了人也变懒了,面对长篇大论的文章往往无法提起精神阅读,使用macOS的朗读功能听起来如同嚼蜡毫无感情可言,那有没有好用的文本转语音工具呢,最近还真找到一个而且提供了MCP服务,今天特此体验下效果。
对以往实战案例感兴趣的小伙伴也可以看往期:
- 【Cursor实战】0基础UI小白如何快速拥有一个产品原型【Cursor实战】Cursor+Figma MCP通过对话直接生成设计稿【Cursor实战】如何快速实现3D动画效果【Cursor实战】使用Cursor+高德MCP成为行程规划达人【Cursor实战】Cursor+两个MCP复刻一个简单的Manus
Cursor版本
当前Cursor版本:0.48.9
限制
访问官网需要科学上网
优势
免费计划用户每月有 10000 tokens 免费额度
关于Elevenlabs
Elevenlabs简介
Elevenlabs是一家专注于AI语音技术的公司,他们的产品能生成自然、富有情感的合成语音,广泛应用于有声读物制作、影视配音、游戏开发以及个性化语音助手等领域。
Elevenlabs官网
官网地址:elevenlabs.io/
Elevenlabs注册登录
选择自己喜欢的方式注册登录
登录成功后即可进入Elevenlabs管理后台
申请API Key
官网地址:elevenlabs.io/app/setting…
点击链接或者在【Elevenlabs】->【用户信息】->【API Keys】进入API Keys申请页面
点击【Create API Key】创建一个新的API Key,输入API Key名称,点击【Create】创建,需要对API进行详细限制的小伙伴可以打开【Restrict Key】
创建完成后保存API Key备用,注意保管API Key,后续将不可查看
产品定价
免费计划用户每月有 10000 tokens 免费额度
在Cursor中配置MCP
GitHub地址:github.com/elevenlabs/…
准备工作完成后,进入Cursor设置页面找到 MCP,点击【Add new global MCP Server】,打开mcp.json文件配置MCP
{ "mcpServers": { "ElevenLabs": { "command": "uvx", "args": ["elevenlabs-mcp"], "env": { "ELEVENLABS_API_KEY": "<insert-your-api-key-here>" } } }}
等待MCP状态变为绿色即为启动成功
可以看到Elevenlabs MCP支持的 tools 还是比较多,包括大家比较常见的文本转音频(TTS)、音频转文本(STT)、音效生成、音色克隆等
使用案例
有声朗读
💡Elevenlabs MCP默认会将生成的音频文件存储到用户桌面 |
有声朗读的过程其实就是将文本转为音频,对于传统方式使用ffmpeg就可以完成,使用ffmpeg有个问题就是朗读效果并不好,纯属无感情的朗读。
// 使用MacOS自带的say指令将文本转为aiff$ say -f elevenlans/a2a.md -o a2a_audio.aiff// 使用ffmpeg将aiff转为音频文件$ ffmpeg -i a2a_audio.aiff a2a_audio.mp3
现在除了使用ffmpeg还可以使用Elevenlabs进行文本朗读,首先准备一段文本并输入提示词
使用英文朗读@a2a.md 并将音频保存到本地
可以看到在未明确指定路径时,Elevenlabs MCP默认会将音频文件存储到桌面
指定路径后,Elevenlabs MCP还是会将音频文件存储到桌面,随后Cursor使用shell指令将音频文件挪动到了elevenlans目录下。试听了下效果不错,有停顿有感情。接下来试试Elevenlabs朗读中文的效果,同样准备一段中文并输入提示词。
使用中文朗读@chinese.md 并将音频保存到@elevenlans目录下
生成完后,我们同样会得到一个中文的音频文件,只不过这个效果听着着实有点令人尴尬,就是一个老外用流利的中文讲着蹩脚的汉语😂。
生成音效
Elevenlabs MCP除了可以用来根据文本转语音还可以用来生成特效、克隆声音,这里试一下生成音效的效果。
这是一个俄罗斯方块游戏的工作目录@tetris-elevenlabs ,使用Elevenlabs MCP为游戏添加俄罗斯方块下落、方向变换和消除等相关音效- 只添加音效,不要改动游戏原始功能- 生成的音效文件放到当前工作目录下
稍等片刻后,可以看到Cursor生成了对应的音效文件
双击【index.html】在浏览器中查看效果,游戏效果和之前还保存一致,但是这个音效嘛,感觉一般般,有点类似抽卡一样,有的还可以,有的就偏差的比较多了。
总结
可以使用Cursor + Elevenlabs MCP实现文本转语言、语音转文本、生成音效等功能,目前Elevenlabs在英文方面支持的还不错,对中文方面支持的并不是很好暂时不建议使用。对于音效的生成Elevenlabs有点像抽卡,有时可以生成不错的音效,有时生成的完全没法用,有需求的小伙伴建议选择性使用。
项目地址
项目放到Github了,感兴趣的小伙伴可以自行玩耍
Github地址:github.com/MisterZhouZ…
常见问题
MCP配置失败
有时会遇到MCP服务配置失败的情况,这种情况多半是由于uvx拉取依赖库失败导致
直接在命令行终端执行对应命令
终端命令启动完成后,重启Cursor
友情提示
见原文:【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成
本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。