Nab主题,更专业的导航主题
Ctrl + D 收藏本站
当前位置:首页 » AI工具库

PDF Craft:PDF扫描文件转Markdown的开源工具

2025-03-24 489

综合介绍

PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。它能提取扫描文档中的正文,去掉页眉页脚等杂项,生成干净的Markdown文件,特别适合整理旧书或研究资料。

PDF Craft:PDF扫描文件转Markdown的开源工具-1

 

功能列表

  • 将扫描书籍PDF转换为Markdown格式,支持本地处理。
  • 提取正文内容,自动过滤页眉、页脚和页码。
  • 处理跨页文本,保持句子连贯。
  • 支持插图和表格截图,嵌入Markdown文件。
  • 使用AI分析页面布局,按阅读顺序整理文本。
  • 可扩展为EPUB格式,生成电子书文件。

 

使用帮助

PDF Craft 专注于扫描书籍PDF转Markdown。下面是详细的安装和使用步骤,帮你快速上手。

安装流程

  1. 准备环境
    你需要一台电脑,安装Python 3.8或以上版本。确保硬盘有足够空间存放AI模型。
  2. 下载代码
    打开终端,输入命令克隆项目:
git clone https://github.com/oomol-lab/pdf-craft.git

然后进入目录:

cd pdf-craft
  1. 安装依赖
    输入以下命令安装所需库:
pip install -r requirements.txt

如果有GPU,可以加装CUDA支持:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. 获取模型
    首次运行时,工具会自动下载AI模型(如DocLayout-YOLO)。保持网络畅通,模型会存到 <model_dir_path>(可在代码中设置)。

操作流程

转换为Markdown

  1. 准备PDF
    把扫描的书籍PDF放在一个文件夹,比如 /path/to/pdf/book.pdf
  2. 运行转换
    在终端输入以下代码:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu":用CPU运行。支持GPU的改为 device="cuda:0"
  • markdown_path:输出Markdown文件路径。
  • image_dir:插图保存目录。
  1. 查看结果
    完成后,打开 /path/to/output.md 检查内容。插图会自动保存到 images 文件夹。

特色功能操作

  • 正文提取
    工具会识别扫描页面,剔除页眉页脚,只保留正文。你无需手动清理杂项。
  • 跨页处理
    如果句子被分页截断,PDF Craft 会自动连接,确保文本流畅。
  • 插图嵌入
    扫描书籍中的图片或表格会被截图,嵌入Markdown。你可以在 images 文件夹找到它们。

小贴士

  • PDF扫描质量要清晰,否则识别可能出错。
  • 首次运行会下载模型,之后离线即可使用。
  • 如果速度慢,试试GPU加速或减少页面数。

 

应用场景

  1. 整理旧书
    你有扫描的旧书PDF,想转成Markdown编辑。PDF Craft 能去掉杂乱内容,生成干净文件。
  2. 研究资料转换
    学者需要把扫描论文转成Markdown记笔记。工具能保留正文和插图,方便引用。
  3. 电子书制作
    你想把扫描PDF变成可编辑的Markdown文档。PDF Craft 提供简单方案。

 

QA

  1. 只支持扫描PDF吗?
    主要是优化扫描书籍PDF。普通文字PDF也能用,但效果可能不如扫描文件。
  2. 转换后图片怎么处理?
    图片会截图保存到指定文件夹,Markdown里自动嵌入链接。
  3. 为什么首次运行慢?
    因为要下载AI模型。之后会变快。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

扫码关注

qrcode

联系我们

回顶部

zh_CN简体中文