PaperAgent 2024年11月13日
一个轻量级RAG文本切块项目Chonkie
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Chonkie是一个轻量级且速度极快的RAG分块库,它提供了多种分块器,例如基于Token、单词、句子、语义以及双重语义的切块方法,可以高效地将文本分割成适合RAG应用的块。Chonkie在速度和内存占用方面表现出色,例如Token分块速度比最慢的替代方案快33倍,句子分块速度也比竞争对手快近2倍。该库易于使用,只需通过pip安装并选择所需的分块器即可进行文本分割,非常适合需要快速高效处理文本的RAG应用场景。

🤔Chonkie提供多种分块器,包括TokenChunker、WordChunker、SentenceChunker、SemanticChunker和SDPMChunker,满足不同应用场景的需求,例如基于标记、单词、句子、语义或双重语义进行文本分块。

🚀Chonkie在速度方面表现优异,Token分块速度比最慢的替代方案快33倍,句子分块速度比竞争对手快近2倍,语义分块速度也比其他方法快2.5倍,显著提升了RAG应用的效率。

📦Chonkie非常轻量级,默认安装仅占用9.7MB,相比其他同类库更节省存储空间,即使在具有语义分块功能的情况下,仍然比竞争对手更轻巧。

🛠️Chonkie易于使用,只需使用pip安装即可,并通过简单的代码即可调用不同的分块器,例如`from chonkie import TokenChunker`,然后初始化并使用即可。

🔗Chonkie的项目地址在GitHub:https://github.com/bhavnicksm/chonkie,并在PyPI上发布:https://pypi.org/project/chonkie/

2024-11-13 10:15 湖北

提供Token、词、句子、语义、双重语义切块

Chonkie:实用的RAG分块库,轻量级、速度快,可随时对文本进行分块

Chonkie 提供了多个分块器,可高效地为RAG应用程序拆分文本。以下是可用分块器的简要概述:

尺寸

速度

####pip install chonkie
# First import the chunker you want from Chonkie from chonkie import TokenChunker
# Import your favorite tokenizer library# Also supports AutoTokenizers, TikToken and AutoTikTokenizerfrom tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2")
# Initialize the chunkerchunker = TokenChunker(tokenizer)
# Chunk some textchunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
# Access chunksfor chunk in chunks: print(f"Chunk: {chunk.text}") print(f"Tokens: {chunk.token_count}")

https://github.com/bhavnicksm/chonkiehttps://pypi.org/project/chonkie/

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Chonkie RAG 分块 文本处理 自然语言处理
相关文章