#0130 给 AI 助手装上 PDF 处理能力

type

Post

status

Published

date

Feb 23, 2026

slug

310a745569bb811d919fc98fac1c5df0

summary

说个真实场景：上周拿到体检报告的 PDF，十几页，密密麻麻的指标。我懒得一个个查，就想着"要是能直接丢给 AI 帮我看就好了"。然后我就真的做到了。

给 AI 助手装上 PDF 处理能力

说个真实场景：上周拿到体检报告的 PDF，十几页，密密麻麻的指标。我懒得一个个查，就想着"要是能直接丢给 AI 帮我看就好了"。

然后我就真的做到了。

为什么你的 AI 需要会处理 PDF

PDF 是个神奇的存在——几乎所有正式文件都用它，但它对机器来说特别不友好。你的 AI 助手再聪明，面对一个 PDF 文件也只能干瞪眼。

装上 PDF Skill 之后，这些事情就变得很自然：

体检报告：丢进去，直接问"哪些指标异常？需要注意什么？"

合同审查：几十页的合同，让 AI 帮你划重点、找风险条款

论文提取：把 arXiv 上的论文扔进去，五分钟出摘要

发票整理：一堆 PDF 发票，批量提取金额和日期

会议纪要：扫描件也能 OCR 识别，不用手打

不是说没有这个能力就活不下去，但有了之后，你会发现以前好多"算了我自己来吧"的事情，现在一句话就搞定了。

三步装好

整个过程大概五分钟。

第一步：拿到 Skill

去 Anthropic 官方的 Skills 仓库（github.com/anthropics/skills），把 PDF 相关的 Skill 文件复制到你 AI 助手的 Skills 目录下。具体路径看你自己的系统配置，一般就是个 markdown 文件，描述了 AI 该怎么调用 PDF 工具。

第二步：装依赖

这一步是关键。Skill 本身只是个"说明书"，真正干活的是底层工具。需要装两类东西：

Python 库：

pypdf：基础读写，合并拆分都靠它

pdfplumber：专门对付表格，体检报告那种表格密集型 PDF 全靠这哥们

reportlab：反过来创建 PDF，生成报告用的

系统工具：

qpdf：命令行下的 PDF 瑞士军刀，合并拆分贼快

poppler：提供 pdftotext 命令，纯文本提取很稳

如果你不是 macOS，把 brew 换成对应的包管理器就行（apt、yum 之类的）。

第三步：验证一下

装完之后，随便找个 PDF 试试。跟你的 AI 说"帮我读一下这个 PDF"，如果它能正常返回内容，就说明装好了。

一个小技巧：第一次测试建议用文字型 PDF（不是扫描件），这样排除 OCR 的干扰，更容易确认基础功能是否正常。

装完能干嘛

列几个我实际用过的场景：

1. 提取 PDF 文本

最基础的操作。合同、论文、报告，丢进去就能读。AI 会自动调用 pdftotext 或 pdfplumber，你不用管底层细节。

2. 表格提取

这个是杀手级功能。体检报告、财务报表里的表格，pdfplumber 能把它们还原成结构化数据。再也不用对着 PDF 手动抄数字了。

3. 合并多个 PDF

"把这三份合同合成一个文件"——以前你得打开各种在线工具，现在一句话搞定。底层用的 qpdf，速度很快。

4. 拆分 PDF

反过来也行。"把这个 PDF 的第 3-5 页单独拿出来"，几秒钟的事。

5. 创建 PDF 报告

让 AI 把分析结果直接生成 PDF。比如"帮我把这周的数据做个报告，输出 PDF"，用 reportlab 就能生成带格式的文档。

6. OCR 扫描件

拍照的文件、扫描的老资料，也能处理。虽然准确率取决于扫描质量，但大多数情况够用了。

踩过的坑

说几个我遇到的问题，省得你再踩一遍：

pdfplumber 和 pypdf 别搞混：前者擅长表格，后者擅长基础操作。两个都装，让 AI 自己选

中文 PDF 注意编码：有些老 PDF 的中文编码比较奇葩，pdftotext 可能乱码，这时候 pdfplumber 通常表现更好

大文件要有耐心：几百页的 PDF 处理起来需要点时间，别以为卡死了就急着中断

一句话总结

给 AI 助手装个 PDF Skill，五分钟的事，但能省你无数个"算了我自己来吧"的瞬间。