Dify 擅长的:
Dify 的局限:
把专业的事交给专业的工具:
打个比方:
前提条件:
如果还没安装,请先查看:
作用: API Key 就像是一把"钥匙",让 Dify 能访问 RAGFlow 的知识库。
操作步骤:

操作步骤:

操作步骤:

配置说明:
API Endpoint(API 地址):
http://RAGFlow服务器地址/api/v1/dify重要提示:
http://127.0.0.1:端口号/api/v1/dify)API Key(API 密钥):
填写第一步获取的 API Key
配置示例:

作用: 指定要使用 RAGFlow 中的哪个知识库。
操作步骤:

使用场景: 如果你需要从 RAGFlow 中下载原始文件(比如备份或查看原文件)。
官方文档: https://ragflow.io/docs/dev/http_api_reference#download-document
/api/v1/datasets/{dataset_id}/documents/{document_id}参数说明:
dataset_id:知识库 ID(在上面第四步的截图中可以找到)document_id:文档的真实 ID(需要通过查询获取)问题: 当你检索知识库时,返回的 document_id 其实是文档名称,不是真实的 ID。
检索返回的数据示例:
{
"metadata": {
"_source": "knowledge",
"dataset_id": "80cb63be-20e1-4123-acb0-27331820c8",
"dataset_name": "我的知识库",
"document_id": "产品说明.docx", // 这是文档名称,不是真实ID
"document_name": "产品说明.docx",
"data_source_type": "external",
"retriever_from": "workflow",
"score": 0.2406198464565076,
"position": 8
},
"title": "产品说明.docx",
"content": "文档内容..."
}解决方法: 根据文档名称查询真实的文档 ID
curl --request GET \
--url http://RAGFlow地址/api/v1/datasets/88be0f02bb811faebb0242ac50006/documents?name=产品说明.docx \
--header 'Authorization: Bearer ragflow-你的API密钥'查询结果示例:

下载命令:
curl --request GET \
--url http://RAGFlow地址/api/v1/datasets/知识库ID/documents/文档真实ID \
--header 'Authorization: Bearer ragflow-你的API密钥' \
--output ./产品说明.docx完整示例:
curl --request GET \
--url http://127.0.0.1:8012/api/v1/datasets/881be0f0bb811f0aebb02ac150006/documents/eaaff2a2ed811f0a900242ac15006 \
--header 'Authorization: Bearer ragflow-M2ZWZhYRhMmJiZDEZjA5ZWYwMDI0Mm' \
--output ./产品说明.docx下载成功示例:

小提示:
什么是 Firecrawl?
Firecrawl 是一个智能网页爬虫工具,可以把网页内容转换成干净的 Markdown 格式,非常适合作为 AI 知识库的数据源。
使用场景:
官方文档: https://docs.firecrawl.dev/zh/introduction
操作步骤:
配置示例:

配置说明:
http://127.0.0.1:3002(或你设置的端口)操作步骤:
示例:

使用建议:
通过这篇教程,你已经学会了:
网页内容 → Firecrawl(爬取清洗) → RAGFlow(深度解析存储) → Dify(智能检索和对话)Q1: Dify 连接 RAGFlow 时报错怎么办?
Q2: Firecrawl 爬取失败怎么办?
Q3: 为什么不直接用 Dify 的内置知识库?
祝你使用愉快!🎉
[1] Dify 安装教程: AITool-Dify.md
[2] RAGFlow 安装教程: AITool-RAGFlow.md
[3] Firecrawl 安装教程: AITool-Firecrawl.md