原创 小可怜Gemini 2025-03-02 14:11 广东
日常感谢谷歌~
这两天群又播报了 POE 的新功能,说一键创建机器人,效果很牛逼,做了一个唐诗三百首的朗读版本。
我上手一次,也惊呆了,去年我通过不成熟的 AI编程,做了一个读PDF 报告的工具,陆陆续续的调整了好几天,前端还蛮糟糕的。(那时候还没有强大 Sonnet 和好用的 AI Coding Tools)
于是,我就拿 POE 的canvas app 试了下水,天啊!3 分钟不到就创建好应用了,这效率有 1000 倍也有 100 倍了!
直接把我震惊了,关键是跑的好好的,0 bug .. 这成熟度嘎嘎的。
过程1 输入需求
我想做一个程序,用户上传他们的 PDF 后,先对每个 pdf 进行截图,通过 gemini 的多模态进行读图并且对每一页进行解读。 最后将所有的解读内容都进行重新调整,使用 gemini 模型进行调整。
过程2 AI分析需求:
Thinking...
The user is requesting a program where users can:
1. Upload their PDF files
2. Have each page of the PDF screenshotted/captured
3. Use Gemini (a multimodal AI model from Google) to analyze/interpret each page of the PDF through the images
4. Finally, reorganize/adjust all the interpreted content using Gemini model
Let me create a web application that can accomplish this. I'll need to:
1. Create a PDF upload interface
2. Convert PDF pages to images
3. Send these images to Gemini via Poe's API
4. Collate the interpretations
5. Send the collated interpretations to Gemini again for final adjustment/summarization
Since Poe doesn't have direct access to Gemini, we'll need to use available bots that might have similar capabilities. Based on the guidelines, Claude-3.7-Sonnet would be the best choice since it supports image inputs.
Let's break down the components needed:
1. PDF upload with drag-and-drop or file picker
2. PDF rendering using PDF.js (from Mozilla, available on CDN)
3. Canvas for capturing each PDF page as an image
4. Interface to show progress and results
5. API calls to Claude-3.7-Sonnet for image analysis
6. Final call to Claude-3.7-Sonnet for content adjustment
I'll create a responsive application with a clean UI using TailwindCSS, ensuring it works well on mobile and desktop, and supporting both light and dark modes.
Let me start coding this application:
PDF 分析应用
我理解您需要一个应用程序,允许用户上传PDF文件,然后对每页进行截图,使用多模态AI分析这些图片,最后重新组织所有解读内容。我会创建这样一个应用,使用Claude-3.7-Sonnet进行图像分析和内容整合,因为它支持图像输入功能。
以下是我的应用设计方案:
代码略
应用功能说明
这个应用允许用户:
1. 上传PDF文件(通过拖放或文件选择器)
2. 应用会逐页处理PDF文件:
• 将每一页渲染为图像
• 使用Claude-3.7-Sonnet对每个页面图像进行分析(因为Claude支持图像输入功能)
• 显示每页的解读结果与对应的页面预览
3. 最后将所有页面的解读内容提交给Claude-3.7-Sonnet,生成整体文档的总结
技术细节
• 使用PDF.js处理PDF文件
• 使用Canvas API将PDF页面转换为图像
• 使用Poe API与Claude-3.7-Sonnet通信
• 响应式设计,适配移动和桌面设备
• 支持深色/浅色模式
• 实时显示处理进度
请注意,我选择了Claude-3.7-Sonnet作为默认模型,因为它支持图像输入功能。如果您希望使用其他模型或有任何其他要求,请告诉我,我可以相应调整应用程序。
AI竟然默认选择 Claude 3.7 真是烧钱大王!!真的是会赚钱的好AI!!!
效果展示
对话框会把拆完的图片发给 AI返回的内容又直接给了可视化的前端。
没错,就是这么简单!!
这真的让人头皮发麻啊! 一个真正的 AI Native 的低代码平台已经在不远的前方。
来看看我花了几天时间写的代码(2024 年 3 月份,请不要喷我):
前端实际体验:
前端简直一坨屎,但是得益于我的高超的 Prompt 水平,阅读后产生内容更加有聚焦点和价值点。
请 AI 来做下对比:
对比表格
维度 | 小编手搓 | POE 一键生成 |
主要功能 | ★★★☆☆ 3.5/5 | ★★★☆☆ 3/5 |
文件支持 | ★★★★☆ 4/5 - PDF 和 PPTX - 支持多种格式,扩展性强 | ★★☆☆☆ 2/5 - 仅支持 PDF - 文件支持单一 |
前端技术栈 | ★★★☆☆ 3/5 | ★★★★☆ 4.5/5 |
后端技术栈 | ★★★★☆ 4.5/5 | ★★☆☆☆ 2/5 |
文件上传机制 | ★★★★☆ 4.5/5 | ★★☆☆☆ 2.5/5 |
内容提取与处理 | ★★★★☆ 4/5 | ★★★☆☆ 3.5/5 |
分析结果展示 | ★★★☆☆ 3/5 | ★★★★☆ 4/5 |
缓存机制 | ★★★★☆ 4/5 | ★☆☆☆☆ 1.5/5 |
用户体验 | ★★☆☆☆ 2.5/5 | ★★★★☆ 4.5/5 |
技术复杂度 | ★★★★☆ 4/5 | ★★☆☆☆ 2.5/5 |
可维护性 | ★★★☆☆ 3.5/5 | ★★★☆☆ 3/5 |
优点 | - 功能丰富:支持多种文件格式和导出 | - 前端轻量:无需后端部署,易于使用 |
缺点 | - 界面简陋:缺乏现代化的设计和交互 | - 功能单一:仅支持 PDF,无导出功能 |
适用场景 | 需要服务器端控制和缓存 | 轻量级、单用户场景 |
综合得分
小编手搓
• 综合评分:★★★★☆ 3.6/5
• 评语:功能强大且适用性广,适合复杂场景,但界面和反馈需优化。在功能性、可扩展性和性能优化上占据优势,适合需要持久化、多文件支持和企业级应用的项目。若改进界面和反馈机制,可进一步提升竞争力。
POE一键生成
• 综合评分:★★★☆☆ 2.9/5
• 评语:轻量美观,用户体验佳,在用户体验和部署简便性上表现优异,适合快速原型
或轻量级应用
,但功能和适用场景受限。
整体而言,系统性的考虑商业化的代码会增加很多有用的机制,用于降低成本,提高用户体验,比如重复上传 PDF 可以秒产生图片,网络出现问题不需要重头开始等,为此需要有更好的逻辑来处理。
而 POE 需要满足是每个个体用户更灵活的简单的使用 AI,短时间内这些价值特性不是 POE 考虑得,想象一下,如果后面多喂点接口,直接使用简单的数据库是不是也能起到一定的持久化作用? 真的非常有想象空间。
真的感觉我具体被淘汰又又又多了一步了,
大家可以玩起来了,免费用户创建点小应用,这里有小 Tips:
1、可以使用全世界最好的Google Gemini Flash 作为基底模型,费用是Sonnet 的 5%。
对了,帮大家录制了一个小视频,看看实际战斗力。
• 第一次代码有问题,命名冲突了。产生完代码后 2min
• 为了解决第一次代码问题,又修改了下代码 2min
• 然后就出现效果
详细看看视频哈~ 是不是特别棒?对了,我做的应用地址是:
https://poe.com/readpdfwithgemini
大家可以试试~
欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文
关注FishAI公众号,欢迎扫码交流群
THE END