# 1、PyMuPDF簡介
1.介紹
在介紹PyMuPDF之前,先來了解一下MuPDF,從命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。
MuPDF
MuPDF 是一個輕量級的 PDF、XPS和電子書查看器。MuPDF 由軟件庫、命令行工具和各種平臺的查看器組成。
MuPDF 中的渲染器專為高質量抗鋸齒圖形量身定制。它以精確到像素的幾分之一內的度量和間距呈現文本,以在屏幕上再現打印頁面的外觀時獲得最高保真度。
這個觀察器很小,速度很快,但是很完整。它支持多種文檔格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移動查看器對PDF文檔進行注釋和填寫表單(這個功能很快也將應用于桌面查看器)。
命令行工具允許您注釋、編輯文檔,并將文檔轉換為其他格式,如HTML、SVG、PDF和CBZ。您還可以使用Javascript編寫腳本來操作文檔。
PyMuPDF
PyMuPDF(當前版本1.18.17)是支持MuPDF(當前版本1.18.*)的Python綁定。
使用PyMuPDF,你可以訪問擴展名為“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外,大約10種流行的圖像格式也可以像文檔一樣處理:“.png”,“.jpg”,“.bmp”,“.tiff”等。
# 2. 功能
對于所有支持的文檔類型可以:
解密文件
訪問元信息、鏈接和書簽
以柵格格式(PNG和其他格式)或矢量格式SVG呈現頁面
搜索文本
提取文本和圖像
轉換為其他格式:PDF, (X)HTML, XML, JSON, text
對于PDF文檔,存在大量的附加功能:它們可以創建、合并或拆分。頁面可以通過多種方式插入、刪除、重新排列或修改(包括注釋和表單字段)。
可以提取或插入圖像和字體
完全支持嵌入式文件
pdf文件可以重新格式化,以支持雙面打印,色調分離,應用標志或水印
完全支持密碼保護:解密、加密、加密方法選擇、權限級別和用戶/所有者密碼設置
支持圖像、文本和繪圖的 PDF 可選內容概念
可以訪問和修改低級 PDF 結構
命令行模塊"python -m fitz…"具有以下特性的多功能實用程序
加密/解密/優化
創建子文檔
文檔連接
圖像/字體提取
完全支持嵌入式文件
保存布局的文本提取(所有文檔)
新:布局保存文本提取!
腳本fitzcliy .py通過子命令“gettext”提供不同格式的文本提取。特別有趣的當然是布局保存,它生成的文本盡可能接近原始物理布局,周圍有圖像的區域,或者在表格和多列文本中復制文本。