掘金 人工智能 05月18日 19:23
【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文评测了Cursor结合Elevenlabs MCP(模型控制平台)在文本转语音和音效生成方面的应用。通过配置MCP,用户可在Cursor中实现英文文本的流畅朗读,但中文朗读效果有待提升。此外,Elevenlabs还支持音效生成,但效果不稳定。文章总结了使用方法、优缺点,并提供了项目GitHub地址,方便感兴趣的读者尝试。

🎙️Elevenlabs 是一家提供 AI 语音技术的公司,其产品能生成自然、富有情感的合成语音,适用于有声读物、影视配音等领域。

🔑通过配置Cursor的MCP,用户可以使用Elevenlabs进行文本转语音(TTS),英文朗读效果较好,但中文朗读效果仍有提升空间。

🎵Elevenlabs MCP还支持音效生成,可为游戏等项目添加音效,但音效质量不稳定,有时效果不佳。

前言

可能AI用久了人也变懒了,面对长篇大论的文章往往无法提起精神阅读,使用macOS的朗读功能听起来如同嚼蜡毫无感情可言,那有没有好用的文本转语音工具呢,最近还真找到一个而且提供了MCP服务,今天特此体验下效果。

对以往实战案例感兴趣的小伙伴也可以看往期:

Cursor版本

当前Cursor版本:0.48.9

限制

访问官网需要科学上网

优势

免费计划用户每月有 10000 tokens 免费额度

关于Elevenlabs

Elevenlabs简介

Elevenlabs是一家专注于AI语音技术的公司,他们的产品能生成自然、富有情感的合成语音,广泛应用于有声读物制作、影视配音、游戏开发以及个性化语音助手等领域。

Elevenlabs官网

官网地址:elevenlabs.io/

Elevenlabs注册登录

选择自己喜欢的方式注册登录

登录成功后即可进入Elevenlabs管理后台

申请API Key

官网地址:elevenlabs.io/app/setting…

点击链接或者在【Elevenlabs】->【用户信息】->【API Keys】进入API Keys申请页面

点击【Create API Key】创建一个新的API Key,输入API Key名称,点击【Create】创建,需要对API进行详细限制的小伙伴可以打开【Restrict Key】

创建完成后保存API Key备用,注意保管API Key,后续将不可查看

产品定价

免费计划用户每月有 10000 tokens 免费额度

在Cursor中配置MCP

GitHub地址:github.com/elevenlabs/…

准备工作完成后,进入Cursor设置页面找到 MCP,点击【Add new global MCP Server】,打开mcp.json文件配置MCP

{  "mcpServers": {    "ElevenLabs": {      "command": "uvx",      "args": ["elevenlabs-mcp"],      "env": {        "ELEVENLABS_API_KEY": "<insert-your-api-key-here>"      }    }  }}

等待MCP状态变为绿色即为启动成功

可以看到Elevenlabs MCP支持的 tools 还是比较多,包括大家比较常见的文本转音频(TTS)、音频转文本(STT)、音效生成、音色克隆等

使用案例

有声朗读

💡Elevenlabs MCP默认会将生成的音频文件存储到用户桌面

有声朗读的过程其实就是将文本转为音频,对于传统方式使用ffmpeg就可以完成,使用ffmpeg有个问题就是朗读效果并不好,纯属无感情的朗读。

// 使用MacOS自带的say指令将文本转为aiff$ say -f elevenlans/a2a.md -o a2a_audio.aiff// 使用ffmpeg将aiff转为音频文件$ ffmpeg -i a2a_audio.aiff a2a_audio.mp3

现在除了使用ffmpeg还可以使用Elevenlabs进行文本朗读,首先准备一段文本并输入提示词

使用英文朗读@a2a.md 并将音频保存到本地

可以看到在未明确指定路径时,Elevenlabs MCP默认会将音频文件存储到桌面

指定路径后,Elevenlabs MCP还是会将音频文件存储到桌面,随后Cursor使用shell指令将音频文件挪动到了elevenlans目录下。试听了下效果不错,有停顿有感情。接下来试试Elevenlabs朗读中文的效果,同样准备一段中文并输入提示词。

使用中文朗读@chinese.md 并将音频保存到@elevenlans目录下

生成完后,我们同样会得到一个中文的音频文件,只不过这个效果听着着实有点令人尴尬,就是一个老外用流利的中文讲着蹩脚的汉语😂。

生成音效

Elevenlabs MCP除了可以用来根据文本转语音还可以用来生成特效、克隆声音,这里试一下生成音效的效果。

这是一个俄罗斯方块游戏的工作目录@tetris-elevenlabs ,使用Elevenlabs MCP为游戏添加俄罗斯方块下落、方向变换和消除等相关音效- 只添加音效,不要改动游戏原始功能- 生成的音效文件放到当前工作目录下

稍等片刻后,可以看到Cursor生成了对应的音效文件

双击【index.html】在浏览器中查看效果,游戏效果和之前还保存一致,但是这个音效嘛,感觉一般般,有点类似抽卡一样,有的还可以,有的就偏差的比较多了。

总结

可以使用Cursor + Elevenlabs MCP实现文本转语言、语音转文本、生成音效等功能,目前Elevenlabs在英文方面支持的还不错,对中文方面支持的并不是很好暂时不建议使用。对于音效的生成Elevenlabs有点像抽卡,有时可以生成不错的音效,有时生成的完全没法用,有需求的小伙伴建议选择性使用。

项目地址

项目放到Github了,感兴趣的小伙伴可以自行玩耍

Github地址:github.com/MisterZhouZ…

常见问题

MCP配置失败

有时会遇到MCP服务配置失败的情况,这种情况多半是由于uvx拉取依赖库失败导致

直接在命令行终端执行对应命令

终端命令启动完成后,重启Cursor

友情提示

见原文:【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成

本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cursor Elevenlabs 文本转语音 音效生成
相关文章