掘金 人工智能 04月30日 10:23
最近爆火、火、火的四个AI开源项目!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文推荐了四个前沿的AI项目,涵盖了系统提示逆向工程、多模态GUI自动化等多个领域。首先介绍了收集AI系统提示的工具,方便学习和研究;接着是用于文件格式转换的轻量级Python工具,方便LLM文本分析;然后是保留排版的PDF文档AI双语翻译工具,支持多种翻译服务;最后是开源多模态代理,实现高效GUI任务和游戏自动化。这些工具不仅提升工作效率,还具有很高的可玩性和学习价值。

✨leaked-system-prompts:这是一个收集和整理各种AI系统Prompt的仓库,涵盖了Anthropic Claude、OpenAI ChatGPT、Google Gemini等主流AI模型的系统提示。用户可以从中学习不同AI模型的提示工程,进行对比和研究。

✨markitdown:这是一个轻量级的Python工具,可以将多种文件格式高效转换为Markdown格式。它支持PDF、PPT、Word、Excel、图片、音频、HTML、文本等多种格式,并保留文档结构,方便LLM和文本分析。

✨PDFMathTranslate:该工具专注于科学论文翻译,能够完整保留原文的排版、公式、图表、目录和注释。它支持将PDF文档翻译成多种语言,并生成双语对照文档,适合学术研究和技术文档翻译。

✨UI-TARS:这是一个开源多模态代理,基于视觉语言模型,能够在虚拟世界中高效执行多样化任务。它支持计算机使用、浏览器操作、手机使用等多种场景的自动化任务,包括游戏操作、GUI元素识别与交互等。

本期分享最近4个AI项目,从系统提示逆向工程到多模态GUI自动化,覆盖了当前AI应用最前沿的领域。这些工具不仅能提升工作效率,还有很高的可玩性和学习性。

01

leaked-system-prompts✨

收集了多个AI系统的泄露提示,涵盖多种模型和平台, 非常好的学习资料

link: https://github.com/jujumilk3/leaked-system-prompts

亮点

    收集Prompt: 本仓库主要功能是收集和整理各种AI系统的Prompt,包括但不限于Anthropic Claude系列、OpenAI ChatGPT、Google Gemini等主流AI模型的系统提示。版本对比: 提供同一AI系统不同版本的提示对比,方便观察系统提示的演变和改进。

02

markitdown✨

轻量级Python工具,将多种文件格式高效转换为Markdown,适用于LLM文本分析

link: https://github.com/microsoft/markitdown

亮点

    多格式转换: 支持PDF、PPT、Word、Excel、图片、音频、HTML、文本格式等多种文件转换为Markdown格式,保留文档结构如标题、列表、表格等。LLM优化: 专为LLM和文本分析流程设计,转换后的Markdown格式接近纯文本但保留关键结构,便于模型处理。

使用方法

    安装: 推荐使用all选项安装全部依赖
pip install 'markitdown[all]'

或按需安装特定格式支持

pip install 'markitdown[pdf, docx]'
    命令行使用:
# 基本转换markitdown input.pdf -o output.md# 使用Azure Document Intelligencemarkitdown input.pdf -d -e "<endpoint>"# 列出可用插件markitdown --list-plugins
    Python API:
from markitdown import MarkItDown# 基本转换md = MarkItDown()result = md.convert("test.docx")# 使用LLM生成图片描述from openai import OpenAIclient = OpenAI()md = MarkItDown(llm_client=client, llm_model="gpt-4")result = md.convert("image.jpg")

03

PDFMathTranslate✨

保留排版的PDF文档AI双语翻译工具,支持多种翻译服务

link: https://github.com/Byaidu/PDFMathTranslate

亮点

    核心功能: PDFMathTranslate 是一个专注于科学论文翻译的工具,能够完整保留原文的排版、公式、图表、目录和注释。它支持将PDF文档翻译成多种语言,并生成双语对照文档,适合学术研究、技术文档翻译等场景。

技术特点

    技术特点: 该工具采用了先进的文档解析技术(如DocLayout-YOLO)和多种翻译服务(Google/DeepL/Ollama/OpenAI等),确保翻译质量的同时保持原文档的格式。与同类工具相比,其在处理复杂排版和公式方面表现优异。

使用方法

    使用方法: 安装和使用PDFMathTranslate非常简单,可以通过多种方式运行。以下是基本的命令行使用方法:
要求:Python (3.10 <= version <= 3.12)pip install pdf2zhpdf2zh document.pdf

此外,还支持图形界面、Docker容器和Zotero插件等多种使用方式。详细的高级选项可以参考:./docs/ADVANCED.md。


04

UI-TARS✨

开源多模态代理,实现高效GUI任务和游戏自动化

link: https://github.com/bytedance/UI-TARSpaper:https://arxiv.org/abs/2501.12326

)

提供了一个Desktop版本:github.com/bytedance/U…

可以看下这两个case:github.com/bytedance/U…

可玩性还是非常高的,比如你想做一个和UI or 自己的电脑交互的agent

亮点

    多模态代理功能: UI-TARS-1.5是一个基于视觉语言模型的开源多模态代理,能够在虚拟世界中高效执行多样化任务。它通过强化学习实现高级推理,显著提升了性能和适应性。任务自动化: 支持计算机使用、浏览器操作、手机使用等多种场景的自动化任务,包括游戏操作、GUI元素识别与交互等。性能优化: 在多个标准基准测试中表现优异,特别是在计算机使用和GUI基础能力方面,显著优于其他模型。

部署

系统提示: github.com/bytedance/U…

参考:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI工具 系统提示 多模态 GUI自动化
相关文章