FishAI官方 03月03日
效率提升 1000 倍,AI编程又一新突破,POE简直是逆天了。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了使用 POE 平台一键创建 AI 应用的体验,作者对比了自己之前手写代码实现 PDF 阅读工具的经历,发现 POE 平台能在几分钟内快速搭建应用,效率提升显著。通过 POE 的 canvas app,作者成功创建了一个可以上传 PDF 文件并利用 Gemini 多模态 AI 模型进行图像解读的应用。文章还对比了手写代码和 POE 一键生成应用在功能、技术栈、用户体验等方面的差异,强调了 POE 在简化 AI 应用开发方面的优势,并展望了 AI Native 低代码平台的未来。

🚀 POE 平台推出一键创建机器人功能,作者亲测效果惊艳,只需几分钟即可创建应用,效率提升高达 100 到 1000 倍,且运行稳定无 bug,成熟度极高。

💡 使用 POE 的 canvas app,用户可以创建一个程序,该程序允许用户上传 PDF 文件,然后对每页进行截图,并使用 Gemini 的多模态 AI 模型对每一页进行解读,最后将所有的解读内容进行重新调整。

🎨 POE 一键生成的应用在前端技术栈上采用 Tailwind CSS 和 pdf.js,实现了现代化的响应式设计,支持暗色/亮色模式,用户界面美观,用户体验优秀,并提供实时的状态更新和直观的页面预览。

💰 作者对比了自己手写代码和 POE 一键生成的应用,发现 POE 在用户体验和部署简便性上表现优异,适合快速原型或轻量级应用,并建议使用 Google Gemini Flash 作为基底模型,以降低成本。

📚 手搓代码的PDF分析应用,在功能性、可扩展性和性能优化上占据优势,适合需要持久化、多文件支持和企业级应用的项目。但界面和反馈有待优化。

原创 小可怜Gemini 2025-03-02 14:11 广东

日常感谢谷歌~

 


这两天群又播报了 POE 的新功能,说一键创建机器人,效果很牛逼,做了一个唐诗三百首的朗读版本。

我上手一次,也惊呆了,去年我通过不成熟的 AI编程,做了一个读PDF 报告的工具,陆陆续续的调整了好几天,前端还蛮糟糕的。(那时候还没有强大 Sonnet 和好用的 AI Coding Tools)

于是,我就拿 POE 的canvas app 试了下水,天啊!3 分钟不到就创建好应用了,这效率有 1000 倍也有 100 倍了!

直接把我震惊了,关键是跑的好好的,0 bug .. 这成熟度嘎嘎的。

过程1 输入需求

我想做一个程序,用户上传他们的 PDF 后,先对每个 pdf 进行截图,通过 gemini 的多模态进行读图并且对每一页进行解读。 最后将所有的解读内容都进行重新调整,使用 gemini 模型进行调整。

过程2 AI分析需求:

Thinking...

The user is requesting a program where users can:

    1. Upload their PDF files

    2. Have each page of the PDF screenshotted/captured

    3. Use Gemini (a multimodal AI model from Google) to analyze/interpret each page of the PDF through the images

    4. Finally, reorganize/adjust all the interpreted content using Gemini model

Let me create a web application that can accomplish this. I'll need to:

    1. Create a PDF upload interface

    2. Convert PDF pages to images

    3. Send these images to Gemini via Poe's API

    4. Collate the interpretations

    5. Send the collated interpretations to Gemini again for final adjustment/summarization

Since Poe doesn't have direct access to Gemini, we'll need to use available bots that might have similar capabilities. Based on the guidelines, Claude-3.7-Sonnet would be the best choice since it supports image inputs.

Let's break down the components needed:

    1. PDF upload with drag-and-drop or file picker

    2. PDF rendering using PDF.js (from Mozilla, available on CDN)

    3. Canvas for capturing each PDF page as an image

    4. Interface to show progress and results

    5. API calls to Claude-3.7-Sonnet for image analysis

    6. Final call to Claude-3.7-Sonnet for content adjustment

I'll create a responsive application with a clean UI using TailwindCSS, ensuring it works well on mobile and desktop, and supporting both light and dark modes.

Let me start coding this application:

PDF 分析应用

我理解您需要一个应用程序,允许用户上传PDF文件,然后对每页进行截图,使用多模态AI分析这些图片,最后重新组织所有解读内容。我会创建这样一个应用,使用Claude-3.7-Sonnet进行图像分析和内容整合,因为它支持图像输入功能。

以下是我的应用设计方案:

代码略

应用功能说明

这个应用允许用户:

    1. 上传PDF文件(通过拖放或文件选择器)

    2. 应用会逐页处理PDF文件:

3. 最后将所有页面的解读内容提交给Claude-3.7-Sonnet,生成整体文档的总结

技术细节

请注意,我选择了Claude-3.7-Sonnet作为默认模型,因为它支持图像输入功能。如果您希望使用其他模型或有任何其他要求,请告诉我,我可以相应调整应用程序。

AI竟然默认选择 Claude 3.7 真是烧钱大王!!真的是会赚钱的好AI!!!

效果展示

对话框会把拆完的图片发给 AI

返回的内容又直接给了可视化的前端。

没错,就是这么简单!!

这真的让人头皮发麻啊! 一个真正的 AI Native 的低代码平台已经在不远的前方。

来看看我花了几天时间写的代码(2024 年 3 月份,请不要喷我):

前端实际体验:

前端简直一坨屎,但是得益于我的高超的 Prompt 水平,阅读后产生内容更加有聚焦点和价值点。


请 AI 来做下对比:


对比表格

维度小编手搓POE 一键生成
主要功能

★★★☆☆ 3.5/5
- 支持 PDF 和 PPTX 文件上传
- 将文件分片上传并计算 MD5
- 提取文件中的图片
- 调用 Gemini API 分析图片内容并缓存
- 提供 Word 导出功能 - 功能丰富,但分析过程反馈不足

★★★☆☆ 3/5
- 支持 PDF 文件上传
- 使用 pdf.js 渲染 PDF 页面为图片
- 调用 Claude-3.7-Sonnet 分析页面内容
- 生成页面解读和总结 - 功能聚焦但缺乏导出和多样性

文件支持

★★★★☆ 4/5 - PDF 和 PPTX - 支持多种格式,扩展性强

★★☆☆☆ 2/5 - 仅支持 PDF - 文件支持单一

前端技术栈

★★★☆☆ 3/5
- jQuery, Resumable.js, Flow.js, Marked.js
- 简单的 HTML 和内联 CSS - 功能齐全但技术较老旧

★★★★☆ 4.5/5
- Tailwind CSS, pdf.js
- 现代化的响应式设计,支持暗色/亮色模式 - 现代且美观

后端技术栈

★★★★☆ 4.5/5
- Flask (Python) + 文件处理库 (PyPDF2, python-pptx 等) - 强大且灵活

★★☆☆☆ 2/5
- 无后端,仅前端实现,依赖 Poe 的外部服务 - 无本地控制,依赖性高

文件上传机制

★★★★☆ 4.5/5
- 支持分片上传 (Flow.js)
- 适合大文件上传
- 文件上传后由后端处理 - 高效且稳定

★★☆☆☆ 2.5/5
- 单文件上传,依赖浏览器 File API
- 不支持分片上传,适合小文件 - 简单但受限

内容提取与处理

★★★★☆ 4/5
- 后端提取 PDF/PPTX 中的图片
- 使用 Gemini API 分析图片内容 - 处理全面但依赖后端

★★★☆☆ 3.5/5
- 前端使用 pdf.js 渲染 PDF 页面为图片
- 使用 Claude-3.7-Sonnet 分析图片内容 - 前端实现轻便但功能单一

分析结果展示

★★★☆☆ 3/5
- 结果通过后端返回并展示在 #results 中
- 支持 Markdown 渲染 - 基本可用但缺乏直观性

★★★★☆ 4/5
- 动态生成页面预览和解读
- 每页显示图片和详细分析,支持总结 - 直观且用户友好

缓存机制

★★★★☆ 4/5
- 使用文件系统缓存分析结果 (JSON 文件)
- 支持断点续传和重复利用 - 高效但需后端支持

★☆☆☆☆ 1.5/5
- 无缓存机制,每次处理均重新分析 - 效率低

用户体验

★★☆☆☆ 2.5/5
- 界面简单朴素,功能导向
- 缺少现代化的视觉设计 - 实用但不吸引人

★★★★☆ 4.5/5
- 界面美观,响应式设计,支持拖拽
- 提供实时状态更新和直观的页面预览 - 优秀体验

技术复杂度

★★★★☆ 4/5
- 前后端结合,涉及文件处理、API 调用和缓存管理
- 实现和维护成本较高 - 复杂但可控

★★☆☆☆ 2.5/5
- 纯前端实现,依赖外部服务
- 开发简单,但功能扩展受限 - 简单但扩展性差

可维护性

★★★☆☆ 3.5/5
- 代码模块化较好 (utils.py 等)
- 但前端代码较零散,维护成本较高 - 模块化但需优化

★★★☆☆ 3/5
- 单文件结构,易于理解
- 但扩展功能需修改大量逻辑 - 简单但扩展困难

优点


功能丰富:支持多种文件格式和导出
可扩展性强:后端架构支持复杂逻辑
性能优化:分片上传和缓存机制适合大文件和大批量处理

前端轻量:无需后端部署,易于使用
视觉体验好:现代化的 UI 和 UX
实时性强:处理过程透明

缺点

界面简陋:缺乏现代化的设计和交互
依赖后端:部署复杂,需维护服务器
反馈不足:分析过程缺乏详细状态更新 - 缺点明显但可改进

功能单一:仅支持 PDF,无导出功能
依赖外部服务:需 Poe 和 Claude API,可能受限
无缓存:重复处理效率低 - 限制较多

适用场景

需要服务器端控制和缓存
- 适合企业级或批量处理应用

轻量级、单用户场景
- 快速原型展示
- 不需要持久化结果的应用


综合得分

小编手搓

POE一键生成

整体而言,系统性的考虑商业化的代码会增加很多有用的机制,用于降低成本,提高用户体验,比如重复上传 PDF 可以秒产生图片,网络出现问题不需要重头开始等,为此需要有更好的逻辑来处理。
而 POE 需要满足是每个个体用户更灵活的简单的使用 AI,短时间内这些价值特性不是 POE 考虑得,想象一下,如果后面多喂点接口,直接使用简单的数据库是不是也能起到一定的持久化作用? 真的非常有想象空间。

真的感觉我具体被淘汰又又又多了一步了,

大家可以玩起来了,免费用户创建点小应用,这里有小 Tips:

1、可以使用全世界最好的Google Gemini Flash 作为基底模型,费用是Sonnet 的 5%。

仅仅只要 19 积分的Flash,视图效果肯定是不差的。

对了,帮大家录制了一个小视频,看看实际战斗力。


详细看看视频哈~ 是不是特别棒?对了,我做的应用地址是:

https://poe.com/readpdfwithgemini

大家可以试试~ 


欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文

关注FishAI公众号,欢迎扫码交流群


THE END












阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

POE AI应用 低代码平台 Gemini Claude-3.7-Sonnet
相关文章