testforpptxrag
资源文件列表:

rag调研.pptx 7.52MB
__MACOSX/._rag调研.pptx 375B
资源介绍:
testforpptxrag
项目
pdf Parser 其他Parser
存储结构
retrieval LLM调用
其他方面
RAGFlow
(python-
TypeScript
)
pyPDF2+ocr
优化了中文解析
正则化
• markdown
• pptx,docx
• html_text,
readability
• chardet
• openpyxl
• deepdoc:ocr+ts
r
minio->FS
mysql->基本信息
redis->向量存储,chunks
• Documents (PDF, DOCS)
• Tables (XLSX)
• Pictures (JPEG, JPG, PNG,
TIF, GIF)
普通:chunks,qa对,表格,
laws,ppt,一整个文件直接储
存方式
本地部署支持:
• bge全系列
• jina-embedding-v2
• nomic-embed-text
• all-MiniLM-L6-v2
• bce-embedding-base_v1
ollama和
inference部署
• 细粒度解析和文档溯源
展示做的比较好。
• 目前支持英语、简体中
文和繁体中文。
• 内置文档解析模型
LangFlow
(JS-
TypeScript
)
react-pdf 正在开发图像、音
频、视频等解析储
存
• code_parser
• image:
OpenSeadrago
n
Astra DB, postgre->chunks,向
量
支持chromadb
• Amazon Bedrock
Embeddings
• Astra vectoriz
• Cohere Embeddings
• OpenAI Embeddings
本地
• Ollama Embeddings
• VertexAI Embeddings
• Hugging Face Embeddings
本地:
• Qianfan
• Vertex AI
• Ollama
用户可以编辑或删除之前
的问答内容给后面的对话
做可控prompt
更方便构建agent工作流
FastGPT
(TypeScrip
t-JS)
pdfjs
只能识别文字
可以解析word,
excel,可以构建
表
MongoDB->FS储存
Postgre->chunk,向量储存
Mysql->openapi
在上传知识库处理时,就需要进
行分类储存管理:支持直接
chunk,qa对处理,外部url知识
库,高级摘要索引转化功能
embedding model支持:
内置的embedding api接口较
少
本地部署支持m3e,bge
通过openapi控
制
可以兼容ollama
和docker端口访
问模式
• 技术栈:NextJs +
TypeScript + ChakraUI
• 强调自己有独特的qa结
构,适合客服问答场景
• 点击提示需要付费的高
级功能按钮太多
DocsGPT(
python-
TypeScript
)
pyPDF2 • epub_parser
• rst_parser
• markdown_par
ser
• openapi3_pars
er
• csv&pandas_p
arser
MongoDB->FS储存
redis->向量存储,chunks
本地部署embedding模型暂时
位置
定制优化的llm:
Docsgpt-7b-
mistral
Docsgpt-14b
Docsgpt-40b-
falcon
对代码的,面向工程开发
文档的解析能力强
有py2doc,js2doc,
java2doc

其他项目纵览
Project Advantages Disadvantages Deployment Overhead
MaxKB 功能清晰简洁
支持中文
不显示引用知识库原文
没有提示是否命中知识库
简单 低
AnythingLLM 可选chat/query模式
query模式每次查询KB
不支持中文 简单 低
Dify.ai 支持中文,界面清晰 不显示引用原文
不提示是否命中kb
中等 中
FastGPT 支持1000个文件,单文
件最大500mb
命中率高,提示原文
本地KB配置难度高 较难 中
RAGFlow 自带大模型
知识库命中率高、显示原
文
体积太大 较难 高

RAGFlow