效率提升 1000 倍，AI编程又一新突破，POE简直是逆天了。

原创小可怜Gemini 2025-03-02 14:11 广东

日常感谢谷歌～

这两天群又播报了 POE 的新功能，说一键创建机器人，效果很牛逼，做了一个唐诗三百首的朗读版本。

我上手一次，也惊呆了，去年我通过不成熟的 AI编程，做了一个读PDF 报告的工具，陆陆续续的调整了好几天，前端还蛮糟糕的。（那时候还没有强大 Sonnet 和好用的 AI Coding Tools）

于是，我就拿 POE 的canvas app 试了下水，天啊！3 分钟不到就创建好应用了，这效率有 1000 倍也有 100 倍了！

直接把我震惊了，关键是跑的好好的，0 bug .. 这成熟度嘎嘎的。

过程1 输入需求

我想做一个程序，用户上传他们的 PDF 后，先对每个 pdf 进行截图，通过 gemini 的多模态进行读图并且对每一页进行解读。最后将所有的解读内容都进行重新调整，使用 gemini 模型进行调整。

过程2 AI分析需求：

Thinking...

The user is requesting a program where users can:

1. Upload their PDF files

2. Have each page of the PDF screenshotted/captured

3. Use Gemini (a multimodal AI model from Google) to analyze/interpret each page of the PDF through the images

4. Finally, reorganize/adjust all the interpreted content using Gemini model

Let me create a web application that can accomplish this. I'll need to:

1. Create a PDF upload interface

2. Convert PDF pages to images

3. Send these images to Gemini via Poe's API

4. Collate the interpretations

5. Send the collated interpretations to Gemini again for final adjustment/summarization

Since Poe doesn't have direct access to Gemini, we'll need to use available bots that might have similar capabilities. Based on the guidelines, Claude-3.7-Sonnet would be the best choice since it supports image inputs.

Let's break down the components needed:

1. PDF upload with drag-and-drop or file picker

2. PDF rendering using PDF.js (from Mozilla, available on CDN)

3. Canvas for capturing each PDF page as an image

4. Interface to show progress and results

5. API calls to Claude-3.7-Sonnet for image analysis

6. Final call to Claude-3.7-Sonnet for content adjustment

I'll create a responsive application with a clean UI using TailwindCSS, ensuring it works well on mobile and desktop, and supporting both light and dark modes.

Let me start coding this application:

PDF 分析应用

我理解您需要一个应用程序，允许用户上传PDF文件，然后对每页进行截图，使用多模态AI分析这些图片，最后重新组织所有解读内容。我会创建这样一个应用，使用Claude-3.7-Sonnet进行图像分析和内容整合，因为它支持图像输入功能。

以下是我的应用设计方案：

代码略

应用功能说明

这个应用允许用户:

1. 上传PDF文件（通过拖放或文件选择器）

2. 应用会逐页处理PDF文件:

• 将每一页渲染为图像

• 使用Claude-3.7-Sonnet对每个页面图像进行分析（因为Claude支持图像输入功能）

• 显示每页的解读结果与对应的页面预览

3. 最后将所有页面的解读内容提交给Claude-3.7-Sonnet，生成整体文档的总结

技术细节

• 使用PDF.js处理PDF文件

• 使用Canvas API将PDF页面转换为图像

• 使用Poe API与Claude-3.7-Sonnet通信

• 响应式设计，适配移动和桌面设备

• 支持深色/浅色模式

• 实时显示处理进度

请注意，我选择了Claude-3.7-Sonnet作为默认模型，因为它支持图像输入功能。如果您希望使用其他模型或有任何其他要求，请告诉我，我可以相应调整应用程序。

AI竟然默认选择 Claude 3.7 真是烧钱大王！！真的是会赚钱的好AI！！！

效果展示

对话框会把拆完的图片发给 AI

返回的内容又直接给了可视化的前端。

没错，就是这么简单！！

这真的让人头皮发麻啊！一个真正的 AI Native 的低代码平台已经在不远的前方。

来看看我花了几天时间写的代码（2024 年 3 月份，请不要喷我）：

前端实际体验：

前端简直一坨屎，但是得益于我的高超的 Prompt 水平，阅读后产生内容更加有聚焦点和价值点。

请 AI 来做下对比：

对比表格

维度	小编手搓	POE 一键生成
主要功能	★★★☆☆ 3.5/5 - 支持 PDF 和 PPTX 文件上传 - 将文件分片上传并计算 MD5 - 提取文件中的图片 - 调用 Gemini API 分析图片内容并缓存 - 提供 Word 导出功能 - 功能丰富，但分析过程反馈不足	★★★☆☆ 3/5 - 支持 PDF 文件上传 - 使用 `pdf.js` 渲染 PDF 页面为图片 - 调用 Claude-3.7-Sonnet 分析页面内容 - 生成页面解读和总结 - 功能聚焦但缺乏导出和多样性
文件支持	★★★★☆ 4/5 - PDF 和 PPTX - 支持多种格式，扩展性强	★★☆☆☆ 2/5 - 仅支持 PDF - 文件支持单一
前端技术栈	★★★☆☆ 3/5 - jQuery, Resumable.js, Flow.js, Marked.js - 简单的 HTML 和内联 CSS - 功能齐全但技术较老旧	★★★★☆ 4.5/5 - Tailwind CSS, pdf.js - 现代化的响应式设计，支持暗色/亮色模式 - 现代且美观
后端技术栈	★★★★☆ 4.5/5 - Flask (Python) + 文件处理库 (PyPDF2, python-pptx 等) - 强大且灵活	★★☆☆☆ 2/5 - 无后端，仅前端实现，依赖 Poe 的外部服务 - 无本地控制，依赖性高
文件上传机制	★★★★☆ 4.5/5 - 支持分片上传 (Flow.js) - 适合大文件上传 - 文件上传后由后端处理 - 高效且稳定	★★☆☆☆ 2.5/5 - 单文件上传，依赖浏览器 File API - 不支持分片上传，适合小文件 - 简单但受限
内容提取与处理	★★★★☆ 4/5 - 后端提取 PDF/PPTX 中的图片 - 使用 Gemini API 分析图片内容 - 处理全面但依赖后端	★★★☆☆ 3.5/5 - 前端使用 `pdf.js` 渲染 PDF 页面为图片 - 使用 Claude-3.7-Sonnet 分析图片内容 - 前端实现轻便但功能单一
分析结果展示	★★★☆☆ 3/5 - 结果通过后端返回并展示在 `#results` 中 - 支持 Markdown 渲染 - 基本可用但缺乏直观性	★★★★☆ 4/5 - 动态生成页面预览和解读 - 每页显示图片和详细分析，支持总结 - 直观且用户友好
缓存机制	★★★★☆ 4/5 - 使用文件系统缓存分析结果 (JSON 文件) - 支持断点续传和重复利用 - 高效但需后端支持	★☆☆☆☆ 1.5/5 - 无缓存机制，每次处理均重新分析 - 效率低
用户体验	★★☆☆☆ 2.5/5 - 界面简单朴素，功能导向 - 缺少现代化的视觉设计 - 实用但不吸引人	★★★★☆ 4.5/5 - 界面美观，响应式设计，支持拖拽 - 提供实时状态更新和直观的页面预览 - 优秀体验
技术复杂度	★★★★☆ 4/5 - 前后端结合，涉及文件处理、API 调用和缓存管理 - 实现和维护成本较高 - 复杂但可控	★★☆☆☆ 2.5/5 - 纯前端实现，依赖外部服务 - 开发简单，但功能扩展受限 - 简单但扩展性差
可维护性	★★★☆☆ 3.5/5 - 代码模块化较好 (utils.py 等) - 但前端代码较零散，维护成本较高 - 模块化但需优化	★★★☆☆ 3/5 - 单文件结构，易于理解 - 但扩展功能需修改大量逻辑 - 简单但扩展困难
优点	- 功能丰富：支持多种文件格式和导出 - 可扩展性强：后端架构支持复杂逻辑 - 性能优化：分片上传和缓存机制适合大文件和大批量处理	- 前端轻量：无需后端部署，易于使用 - 视觉体验好：现代化的 UI 和 UX - 实时性强：处理过程透明
缺点	- 界面简陋：缺乏现代化的设计和交互 - 依赖后端：部署复杂，需维护服务器 - 反馈不足：分析过程缺乏详细状态更新 - 缺点明显但可改进	- 功能单一：仅支持 PDF，无导出功能 - 依赖外部服务：需 Poe 和 Claude API，可能受限 - 无缓存：重复处理效率低 - 限制较多
适用场景	需要服务器端控制和缓存 - 适合企业级或批量处理应用	轻量级、单用户场景 - 快速原型展示 - 不需要持久化结果的应用

综合得分

小编手搓

• 综合评分：★★★★☆ 3.6/5

• 评语：功能强大且适用性广，适合复杂场景，但界面和反馈需优化。在功能性、可扩展性和性能优化上占据优势，适合需要持久化、多文件支持和企业级应用的项目。若改进界面和反馈机制，可进一步提升竞争力。

POE一键生成

• 综合评分：★★★☆☆ 2.9/5

• 评语：轻量美观，用户体验佳，在用户体验和部署简便性上表现优异，适合快速原型或轻量级应用，但功能和适用场景受限。

整体而言，系统性的考虑商业化的代码会增加很多有用的机制，用于降低成本，提高用户体验，比如重复上传 PDF 可以秒产生图片，网络出现问题不需要重头开始等，为此需要有更好的逻辑来处理。
而 POE 需要满足是每个个体用户更灵活的简单的使用 AI，短时间内这些价值特性不是 POE 考虑得，想象一下，如果后面多喂点接口，直接使用简单的数据库是不是也能起到一定的持久化作用？真的非常有想象空间。

真的感觉我具体被淘汰又又又多了一步了，

大家可以玩起来了，免费用户创建点小应用，这里有小 Tips：

1、可以使用全世界最好的Google Gemini Flash 作为基底模型，费用是Sonnet 的 5%。