#0130 给 AI 助手装上 PDF 处理能力

type
Post
status
Published
date
Feb 23, 2026
slug
310a745569bb811d919fc98fac1c5df0
summary
说个真实场景:上周拿到体检报告的 PDF,十几页,密密麻麻的指标。我懒得一个个查,就想着"要是能直接丢给 AI 帮我看就好了"。 然后我就真的做到了。
tags
教程
OpenClaw
Skill
category
投资
icon
password

给 AI 助手装上 PDF 处理能力

说个真实场景:上周拿到体检报告的 PDF,十几页,密密麻麻的指标。我懒得一个个查,就想着"要是能直接丢给 AI 帮我看就好了"。
然后我就真的做到了。

为什么你的 AI 需要会处理 PDF

PDF 是个神奇的存在——几乎所有正式文件都用它,但它对机器来说特别不友好。你的 AI 助手再聪明,面对一个 PDF 文件也只能干瞪眼。
装上 PDF Skill 之后,这些事情就变得很自然:
  • 体检报告:丢进去,直接问"哪些指标异常?需要注意什么?"
  • 合同审查:几十页的合同,让 AI 帮你划重点、找风险条款
  • 论文提取:把 arXiv 上的论文扔进去,五分钟出摘要
  • 发票整理:一堆 PDF 发票,批量提取金额和日期
  • 会议纪要:扫描件也能 OCR 识别,不用手打
不是说没有这个能力就活不下去,但有了之后,你会发现以前好多"算了我自己来吧"的事情,现在一句话就搞定了。

三步装好

整个过程大概五分钟。

第一步:拿到 Skill

去 Anthropic 官方的 Skills 仓库(github.com/anthropics/skills),把 PDF 相关的 Skill 文件复制到你 AI 助手的 Skills 目录下。具体路径看你自己的系统配置,一般就是个 markdown 文件,描述了 AI 该怎么调用 PDF 工具。

第二步:装依赖

这一步是关键。Skill 本身只是个"说明书",真正干活的是底层工具。需要装两类东西:
Python 库:
  • pypdf:基础读写,合并拆分都靠它
  • pdfplumber:专门对付表格,体检报告那种表格密集型 PDF 全靠这哥们
  • reportlab:反过来创建 PDF,生成报告用的
系统工具:
  • qpdf:命令行下的 PDF 瑞士军刀,合并拆分贼快
  • poppler:提供 pdftotext 命令,纯文本提取很稳
如果你不是 macOS,把 brew 换成对应的包管理器就行(aptyum 之类的)。

第三步:验证一下

装完之后,随便找个 PDF 试试。跟你的 AI 说"帮我读一下这个 PDF",如果它能正常返回内容,就说明装好了。
一个小技巧:第一次测试建议用文字型 PDF(不是扫描件),这样排除 OCR 的干扰,更容易确认基础功能是否正常。

装完能干嘛

列几个我实际用过的场景:
1. 提取 PDF 文本
最基础的操作。合同、论文、报告,丢进去就能读。AI 会自动调用 pdftotextpdfplumber,你不用管底层细节。
2. 表格提取
这个是杀手级功能。体检报告、财务报表里的表格,pdfplumber 能把它们还原成结构化数据。再也不用对着 PDF 手动抄数字了。
3. 合并多个 PDF
"把这三份合同合成一个文件"——以前你得打开各种在线工具,现在一句话搞定。底层用的 qpdf,速度很快。
4. 拆分 PDF
反过来也行。"把这个 PDF 的第 3-5 页单独拿出来",几秒钟的事。
5. 创建 PDF 报告
让 AI 把分析结果直接生成 PDF。比如"帮我把这周的数据做个报告,输出 PDF",用 reportlab 就能生成带格式的文档。
6. OCR 扫描件
拍照的文件、扫描的老资料,也能处理。虽然准确率取决于扫描质量,但大多数情况够用了。

踩过的坑

说几个我遇到的问题,省得你再踩一遍:
  • pdfplumber 和 pypdf 别搞混:前者擅长表格,后者擅长基础操作。两个都装,让 AI 自己选
  • 中文 PDF 注意编码:有些老 PDF 的中文编码比较奇葩,pdftotext 可能乱码,这时候 pdfplumber 通常表现更好
  • 大文件要有耐心:几百页的 PDF 处理起来需要点时间,别以为卡死了就急着中断

一句话总结

给 AI 助手装个 PDF Skill,五分钟的事,但能省你无数个"算了我自己来吧"的瞬间。
Loading...

© xiyu 2013-2026