V2EX 12小时前
[问与答] 有什么方便的方式 将 整个网页内容 喂给 ChatGpt/Geimini 等 AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AI在处理网页内容时遇到的挑战,特别是由于服务端渲染、流式传输和懒加载技术导致的问题。作者尝试了多种解决方案,包括截屏、保存为PDF、使用网页剪切插件和在线转换工具,但都存在局限性。最终,作者推荐使用Obsidian的web剪切插件来保存网页为Markdown格式,并提出了如何将完整网页内容提供给AI的疑问,以及寻找更有效的网页转Markdown方案的需求。

🔗 AI无法直接访问外部链接,且对URL的解读常常与实际网页内容不符。例如,在访问特定GitHub issue页面时,AI甚至无法正确解读网页标题。

🖥️ 许多网站采用服务端渲染技术,导致直接访问URL只能获取简短的HTML。完整网页内容需等待流式渲染或懒加载完成,这给网页剪切插件带来了挑战,导致无法完整获取内容。

🖼️ 截屏或保存为PDF的方法虽然可行,但会丢失网页中的URL链接,且需要OCR技术,增加了处理的复杂性。

📝 简悦等插件在处理某些网站时,只能保存部分内容,而在线URL转Markdown工具也因服务端渲染问题,无法获取完整网页内容。

💡 目前推荐使用Obsidian的web剪切插件保存网页为Markdown格式,但仍存在如何将完整网页内容提供给AI以及更有效的网页转Markdown方案的需求。

背景

有写 AI 不支持访问外部链接,有些 AI 访问 url 解读的内容和实际网页的内容根本不一致.

比如 对于这个 urlhttps://github.com/prisma/docs/issues/6284geimin 连 网页的标题 都没有解读 正确.

有且网站使用了 服务端渲染技术, 所以如果你只是访问 URL, 就会得到一个 很简短的 HTML, 实际整个网页的内容是需要等待流式渲染结束之后 才能看到整个网页的实际内容, 甚至有些内容是懒加载, 需要滚动到这个位置才会渲染具体的内容. 所以像 飞书/语雀这样的网页剪切插件 试了一下无法剪贴到整个网页的内容, 只剪切到了一小部分内容.

方案一 截屏整个网页或者 将网页保存为 pdf

这两种方式 对于 AI 解析 PDF 或者图片都是需要使用 ocr, 他们无法读取到文字的 url 链接,网页中的文字的链接 丢失了.存在缺点.

方案二 保存为 markdown.

    简悦这个插件 不好用, 很多网站只能保存到 非常小的一部分内容. 丢三落四.obsidian 的 web 剪切插件, 目前在用这个插件来将网页保存为 markdown.

方案三

有一些在线将 url 转为 markdown 的网站, 试了几个效果都不理想, 他们的问题都是只获取到了部分网页内容. 大概率是因为上文提到的服务端渲染 流式传输的原因.

问题:

    有什么好的方案将 整个网页的内容喂给 ai有什么更为好用方案将 网页转为 markdown. 对于输出的格式不关注, 关注点是网页内容不要丢失.

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 网页内容 Markdown 服务端渲染 Obsidian
相关文章