原创 小茸茸 2024-12-19 09:31 重庆
阿里发布 CosyVoice 2.0:双向流媒体与发音优化;OpenAI 推出打电话和发短信给 ChatGPT;GitHub Copilot 推出免费版本;ChatGPT 自动化任务演示曝光;字节跳动推出豆包视觉理解模型
阿里发布 CosyVoice 2.0:双向流媒体与发音优化
阿里发布了 CosyVoice 2.0[1] 文本转语音模型,该版本不仅支持文本和语音的双向流媒体,还在绕口令、多音字和生僻字的发音错误上减少了 30%-50%。此外,模型还进行了其他性能改进。
目前代码已经开源,也有在线演示[2]。效果是真的厉害,就是推理速度非常的慢,希望后续能优化一下。
OpenAI 推出打电话和发短信给 ChatGPT
OpenAI 12Days[3] 在其活动第 10 天整了个活儿,现在你可以通过拨打 1-800-CHATGPT(1-800-242-8478)或发送短信来与 ChatGPT 进行通话。
每人每月在美国享有 15 分钟的语音通话时间,不过这个功能感觉只有一些极端 case 条件下才有用吧,起码国内环境是这样的。国内用户也不用急,我猜大厂们很快就会跟进这一功能!
GitHub Copilot 推出免费版本
GitHub Copilot[4] 现在推出了免费订阅版本,用户可以享受所有支持的模型,但每月最多只能使用 2000 个自动完成和 50 个 Chat 请求。不过,教育和开源开发者依然可以无限制访问。
佬友们可以试试,咱作为高贵的 open source maintainers,一直有 Pro 版本可用。不过我依然在用 Cursor,不知道新版 Copilot 怎么样了。
ChatGPT 自动化任务演示曝光
大佬 Tibor Blaho[5] 泄露了一段 ChatGPT 任务和自动化的演示视频。
用户可以创建自定义定时或计划任务,任务完成后,可以通过客户端或邮箱通知用户。此外,任务还支持随时暂停、继续和编辑。
我盲猜这是剩下两天要发布的内容,佬友们怎么看?
字节跳动推出豆包视觉理解模型
昨天,字节跳动发布了豆包视觉理解模型[6]。从演示视频看,模型的内容识别、理解和推理能力以及记忆能力都表现出色。
API 现已上线火山引擎,免费提供 50 万 token,最便宜的 lite 模型,输入输出分别为 1.5 元、4.5 元/M token。
不过没有找到基准测试之类的,不知道有没有佬友有接入豆包的可以分享一下。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
CosyVoice2 官网: https://funaudiollm.github.io/cosyvoice2/
[2]CosyVoice2 在线演示: https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B
[3]OpenAI 12Days 活动官网: https://openai.com/12-days/?day=10
[4]GitHub Copilot 免费订阅公告: https://github.blog/news-insights/product-news/github-copilot-in-vscode-free/
[5]Tibor Blaho 的 Twitter 帖子: https://x.com/btibor91/status/1869160332712960345
[6]豆包视觉理解模型官网: https://www.volcengine.com/docs/82379/1362931