原创 小茸茸 2024-10-04 15:41 重庆
黑森林发布 Flux 1.1 Pro
OpenAI whisper 模型速度提升 8 倍,Realtime API简化语音助手开发,Canvas 全新协作编程界面
PIKA AI 物理视频生成
微软 Copilot AI 7 大新功能亮相
黑森林实验室发布蓝莓模型 Flux 1.1 Pro
黑森林实验室发布Flux 1.1 Pro[1],这个模型就是前几天登顶 Artificial Analysis image 竞技场的那个蓝莓模型。新版本的速度提升了 6 倍,但依然只支持 API 访问。此外,黑森林实验室还推出了官方 API,即 BFL API,此前主要通过第三方平台如 Replicate 和 Fal AI 进行调用。
OpenAI 开源 whisper-large-v3-turbo 模型:速度提升 8 倍
OpenAI 开源了 whisper-large-v3-turbo[2] 模型,该模型基于 Whisper large-v3 微调而来,在略微牺牲质量的情况下,仅需 6G VRAM,速度比 large-v3 快了 8 倍。有网友在 M2 Ultra 上实测,以 14 秒转录 12 分钟,实际速度提升了 50 倍,不过中文识别效果就那样。
OpenAI 推出 Realtime API:简化语音助手开发
在 OpenAI 开发者大会上,Realtime API[3] 和 gpt-4o-realtime-preview[4] 模型正式亮相,该接口支持同时输入音频或文字,极大地简化了开发语音助手的流程。过去,开发者需要先使用 Whisper 进行语音转文字,再将文字传递给大模型,最后通过 TTS 转换回语音,这一过程不仅延迟高,效果也比较差。现在,一个接口就能搞定,虽然价格挺贵——每分钟的音频输入费用约为 0.06 USD,音频输出每分钟的费用约为 0.24 USD。此外,微软 Azure AI 也已支持这一接口,你可以在 Azure Realtime API[5] 了解更多。
PIKA AI 1.5:逼真物理特效视频生成
PIKA AI[6] 发布了 1.5 版本模型,该版本不仅能生成效果更逼真、运动幅度更大的视频,还支持生成融化、爆炸、挤压等物理特效。挤压特效真心不错,有网友做了用手捏爆头像,刷到的时候一度以为是真棉花糖然后拿手捏的
OpenAI 推出 ChatGPT Canvas:全新协作编程界面
Canvas[7] 现在推出了一个专用于撰写和编程的新 UI——Canvas。通过 Canvas,我们能够与 ChatGPT 协作处理项目,而不仅仅是进行简单的聊天。Canvas 基于 GPT-4,目前仅支持 ChatGPT Plus 和 Team 用户。官方表示,测试结束后将向所有用户开放,包括白嫖用户。
微软 Copilot AI 系列产品更新:7 大新功能亮相
微软最近对其 Copilot AI[8] 系列产品进行了一次重大更新,一口气推出了 7 个新功能。其中包括
高级语音模式 Copilot Voice
个人信息助手 Copilot Daily
类似苹果提示应用的 Personalized Discover
用户现在可以通过在 Microsoft Edge 的地址栏输入 @copilot 来直接访问 AI 功能
Copilot Labs 类似于 Google Labs,未来所有新的内测功能都将首先在这个平台上发布
Copilot Vision 功能类似于 Chrome 的智能镜头,但功能更为强大,支持对话。
Think Deeper 功能可能是基于 o1 模型的微调,用于处理更复杂的问题。
挺好的,就是这些新功能目前仅限于澳大利亚、加拿大、新西兰、英国和美国的小部分用户和 Pro 用户使用
❝闲里偷忙给大伙整理下最近几天发生的一些事,都看到这里了,还不点个赞吗...
Reference
[1]
Flux 1.1 Pro 官方公告: https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/
[2]whisper-large-v3-turbo 在线演示: https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo
[3]OpenAI 实时 API 介绍: https://openai.com/index/introducing-the-realtime-api/
[4]gpt-4o-realtime-preview 模型文档: https://platform.openai.com/docs/models/gpt-4o-realtime
[5]Azure AI 服务中的 OpenAI 实时音频处理指南: https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/audio-real-time?pivots=programming-language-ai-studio
[6]PIKA 官网: https://pika.art/about
[7]Canvas 官方介绍: https://openai.com/index/introducing-canvas/
[8]Copilot AI 更新博客: https://blogs.microsoft.com/blog/2024/10/01/an-ai-companion-for-everyone/