V2EX 14小时前

[问与答] 有什么方便的方式将整个网页内容喂给 ChatGpt/Geimini 等 AI

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

文章探讨了AI在处理网页信息时遇到的挑战，特别是在无法直接访问外部链接以及网页内容解读不一致的情况下。针对这些问题，文章分析了截屏、保存为PDF、保存为Markdown等多种方案的优缺点，并指出了服务端渲染和流式传输技术对信息获取的影响。最终，文章提出了对更好的网页转Markdown方案的需求，以确保网页内容的完整性，从而更有效地将信息喂给AI。

💻 AI访问网页内容受限：当前AI无法直接访问外部链接，且解读URL内容与实际网页内容常不一致，例如GitHub链接解析失败。

🤔 服务端渲染技术的影响：许多网站采用服务端渲染，导致直接访问URL只能获取部分HTML，完整内容需等待流式渲染或懒加载。传统网页剪切插件难以完整获取内容。

🖼️ 现有解决方案的局限性：截屏或PDF方案会丢失URL链接，而简悦等插件以及在线转Markdown工具也常因无法处理服务端渲染而丢失内容。

💡 核心问题：如何完整地将网页内容提供给AI，以及寻找更有效的网页转Markdown方案，是解决问题的关键。

背景

有写 AI 不支持访问外部链接,有些 AI 访问 url 解读的内容和实际网页的内容根本不一致.

比如对于这个 urlhttps://github.com/prisma/docs/issues/6284geimin 连网页的标题都没有解读正确.

有且网站使用了服务端渲染技术, 所以如果你只是访问 URL, 就会得到一个很简短的 HTML, 实际整个网页的内容是需要等待流式渲染结束之后才能看到整个网页的实际内容, 甚至有些内容是懒加载, 需要滚动到这个位置才会渲染具体的内容. 所以像飞书/语雀这样的网页剪切插件试了一下根本无法剪贴到整个网页的内容, 只剪切到了一小部分内容.

方案一截屏整个网页或者将网页保存为 pdf

这两种方式对于 AI 解析 PDF 或者图片都是需要使用 ocr, 他们无法读取到文字的 url 链接,网页中的文字的链接丢失了.存在缺点.

方案二保存为 markdown.

简悦这个插件不好用, 很多网站只能保存到非常小的一部分内容. 丢三落四.obsidian 的 web 剪切插件, 目前在用这个插件来将网页保存为 markdown.

方案三

有一些在线将 url 转为 markdown 的网站, 试了几个效果都不理想, 他们的问题都是只获取到了部分网页内容. 大概率是因为上文提到的服务端渲染流式传输的原因.

问题:

有什么好的方案将整个网页的内容喂给 ai有什么更为好用方案将网页转为 markdown. 对于输出的格式不关注, 关注点是网页内容不要丢失.

背景

方案一截屏整个网页或者将网页保存为 pdf

方案二保存为 markdown.

方案三

问题:

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

背景

方案一 截屏整个网页或者 将网页保存为 pdf

方案二 保存为 markdown.

方案三

问题:

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

方案一截屏整个网页或者将网页保存为 pdf

方案二保存为 markdown.