首页 > 营销学院 > IT资讯

利用Docling和Python构建开源AI知识库（含教程）

在人工智能（AI）领域，构建能够理解和利用特定领域知识的智能代理变得越来越重要。为AI代理提供访问企业内部数据的能力，可以显著提升其解决问题的能力和效率。例如，提供公司文档、PDF文件和网站数据，能够使AI代理更好地理解公司业务和特定任务。然而，市面上许多数据提取工具都是闭源的，需要API密钥并涉及将数据发送到第三方平台进行处理，这既增加了成本，也带来了数据安全和隐私方面的担忧。本文将介绍如何使用Docling，一个强大的开源Python库，来构建完全开源的文档提取流程，为您的AI代理提供定制化的知识。

关键要点

Docling是一个强大的开源Python库，用于文档提取和知识库构建。

可以使用Docling免费解析PDF、网页等各类文档。

无需依赖闭源API，保护数据安全和隐私。

本文提供构建开源AI知识库的完整流程和代码示例。

开源文档提取工具Docling

告别闭源API：拥抱开源的数据提取方案

随着ai技术的日益普及，越来越多的企业和开发者开始尝试利用ai代理来解决实际问题。然而，许多ai应用都需要访问特定的知识库才能发挥作用。例如，企业可能希望ai代理能够理解其内部文档，以便更好地服务客户或优化内部流程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利用Docling和Python构建开源AI知识库（含教程）

传统的解决方案通常依赖于闭源的API，例如Chatbase、Azure AI Document Intelligence、Amazon Textract和LlamaIndex等。这些API虽然功能强大，但也存在一些问题：

成本高昂：使用这些API通常需要付费，随着数据量的增加，成本也会不断上升。
数据安全风险：需要将敏感数据发送到第三方平台进行处理，存在数据泄露的风险。
缺乏灵活性：闭源API的功能和定制性有限，难以满足所有需求。

Docling的出现，为我们提供了一个全新的选择。它是一个完全开源的Python库，可以帮助您构建自己的文档提取流程，无需依赖任何闭源API。这意味着您可以完全掌控您的数据，并根据自己的需求定制流程。

LlamaParse也是一个数据提取工具，但是Docling是更优秀的开源替代方案。

Docling的优势在于其完全开源的特性。这意味着您可以自由地查看、修改和分发代码，并根据自己的需求进行定制。此外，由于数据处理完全在本地进行，因此可以更好地保护数据安全和隐私。下表对闭源方案和 Docling 进行了对比：

特性	闭源API（如Chatbase）	Docling（开源方案）
成本	高	免费
数据安全	风险高	安全
灵活性	有限	高，可定制
可控性	低	高，完全掌控
是否开源	否	是

总而言之，Docling是一个强大且灵活的开源解决方案，可以帮助您构建自己的AI知识库，并更好地保护您的数据。

Docling 的主要功能

利用Docling和Python构建开源AI知识库（含教程）

Docling 不仅是一个工具，而是一个强大的文档处理库，它能够将各种文档格式统一转换为标准格式，为你的AI agent提供统一的数据来源。

通用格式支持: 可以处理PDF, DOCX, XLSX, PPTX, Markdown, HTML, 图片等多种格式。
强大的 AI 理解能力: 基于 AI 的布局分析和表格结构识别，提供更精准的文档理解。
灵活的导出选项: 支持导出为 HTML, Markdown, JSON 或纯文本。
高性能: 可以在本地硬件上高效运行。
正在开发的功能:
- 元数据提取，包括标题、作者、参考资料和语言
- 包含视觉语言模型 (SmolDocling)
- 图表理解 (Barchart, Piechart, LinePlot 等)
- 复杂化学物质理解（分子结构）
易于集成: Docling可以和LangChain, LlamaIndex, Crew AI & Haystack等集成，为agentic AI 提供支持

这些特性使得 Docling 成为构建 AI 知识库的理想选择，无论你是处理 PDF 文档，还是网络内容，Docling 都能提供强大的支持。

准备 Docling 环境

环境配置与依赖安装

在使用 Docling 之前，需要进行一些准备工作。首先，需要安装 Python 环境（推荐使用 3.8 或更高版本）。然后，使用 pip 安装 Docling 及其依赖项：

pip install -r requirements.txt

你还需要设置 OpenAI API 密钥,用于创建 Embeddings, 当然你也可以使用开源模型, 在这一步只是可选的。

利用Docling和Python构建开源AI知识库（含教程）

OPENAI_API_KEY=你的api密钥

使用 Docling 构建知识库

文档内容提取

首先，我们需要从文档中提取内容。Docling 提供了 DocumentConverter 类，可以方便地将各种文档格式转换为统一的内部表示。

音疯

音疯是昆仑万维推出的一个AI音乐创作平台，每日可以免费生成6首歌曲。

178 查看详情

利用Docling和Python构建开源AI知识库（含教程）

以下是一个提取PDF文档内容的示例：

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)

以下是一个提取网页内容的示例：

result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)

如果需要提取整个网站的内容，可以使用 Sitemap：

from utils.sitemap import get_sitemap_urls

sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)

docs = []
for result in conv_results_iter:
    if result.document:
        docs.append(document)

内容分块（Chunking）

为了更好地利用提取的内容，我们需要将其分割成更小的块，以便更好地进行索引和检索。Docling 提供了混合分块（Hybrid Chunking）功能，可以根据文档的结构和内容，智能地将文档分割成更小的块。

利用Docling和Python构建开源AI知识库（含教程）

以下是一个使用混合分块的示例：

from docling.chunking import HybridChunker

chunker = HybridChunker()
chunk_iter = chunker.chunk(dl_doc.document)
chunks = list(chunk_iter)

Embedding创建

接下来，我们需要为每个内容块创建 Embedding，以便进行语义搜索。Embedding 是一种将文本转换为向量表示的技术，可以捕捉文本的语义信息。本文使用OpenAI 进行 Embeddings 创建。

利用Docling和Python构建开源AI知识库（含教程）

以下是一个创建 Embedding 并存储到 LanceDB 的示例：

import lancedb
from lancedb.embeddings import get_registry

db = lancedb.connect("./data/lancedb")

# 获取 OpenAI Embedding 函数
func = get_registry().get("openai").create(name="text-embedding-3-large")

class ChunkMetadata(LanceModel):
    filename: str = None
    page_numbers: list[int] = None
    title: str = None

class Chunks(LanceModel):
    text: str = SourceField()
    vector: Vector(func.ndims) = func.VectorField(type=ignore)
    metadata: ChunkMetadata

table = db.create_table("docling", schema=Chunks, mode="overwrite")

# 准备数据
processed_chunks = []
for chunk in chunks:
    processed_chunks.append({
        "text": chunk.text,
        "metadata": {
            "filename": chunk.meta.origin.filename,
            "page_numbers": sorted(chunk.meta.page_no),
            "title": chunk.meta.headings[0] if chunk.meta.headings else None
        }
    })

table.add(processed_chunks)

在这个示例中，我们首先连接到 LanceDB 数据库。然后，我们定义了一个 Pydantic 模型 Chunks，用于描述数据表的结构。这个模型包含了文本内容、Embedding 向量和元数据。

Docling 的优缺点

? Pros

完全开源，免费使用

强大的文档提取和解析能力

支持多种文档格式

可与 LangChain、LlamaIndex 等 AI 框架集成

高效的本地处理能力

? Cons

需要一定的 Python 编程基础

部分高级功能可能需要手动配置

对于某些特殊格式的文档，可能需要自定义提取规则

常见问题解答

Docling 是免费的吗？

是的，Docling 是一个完全开源的项目，您可以免费使用和修改。

我需要 OpenAI API 密钥才能使用 Docling 吗？

使用 OpenAI API 密钥是可选的。Docling 允许你使用开源模型创建embeddings, 但视频为了演示使用了OpenAI, 所以如果需要使用 OpenAI 的 Embedding 功能，您需要提供 API 密钥。

Docling 支持哪些文档格式？

Docling 支持多种文档格式，包括 PDF、DOCX、XLSX、PPTX、Markdown、HTML 等。

如何将 Docling 集成到我的 AI 应用程序中？

Docling 可以轻松地与 LangChain、LlamaIndex 等 AI 框架集成。

相关问题

除了 Docling，还有哪些开源文档提取工具？

除了Docling之外，还有一些其他的开源文档提取工具可供选择，例如： PDFMiner: 这是一个用于从PDF文档中提取文本的Python库。它提供了一种直接的方法来解析PDF文件并提取文本内容，但可能需要额外的处理来处理复杂的布局和格式。 Apache Tika: 这是一个内容分析工具包，可以检测和提取各种文件格式的元数据和文本内容。它支持多种文档格式，包括PDF、Microsoft Office文档和HTML等。 Beautiful Soup: 这是一个用于从HTML和XML文件中提取数据的Python库。它提供了一种简单而灵活的方法来解析文档并提取所需的信息。虽然这些工具都可以用于文档提取，但Docling的优势在于其完全开源的特性、强大的AI理解能力和对多种文档格式的支持。它提供了一个更全面和灵活的解决方案，可以更好地满足构建AI知识库的需求。在选择文档提取工具时，需要根据您的具体需求和场景进行评估。如果您需要一个完全开源、功能强大且易于使用的工具，那么Docling是一个不错的选择。

以上就是利用Docling和Python构建开源AI知识库（含教程）的详细内容，更多请关注其它相关文章！

# python # 自己的 # 江门地产关键词排名如何 # 罗湖快速网站建设哪里好 # 怎样写seo计划 # 斗牛seo破解 # 古沁玉如何推广市场营销 # 商城网站建设服务 # 注册网站会员app推广 # 金华关键词排名技巧 # 衡水seo公司找5火星 # 财务公司网站seo # 您可以 # 如何用 # 更好地 # 文档格式 # 您的 # 一键 # 是一个 # 文档 # 开源 # ppt # app # 人工智能 # github # apache # json # git # markdown # js # html

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-12-21

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。