pdfgrep – 在 PDF 文檔中搜索文本


Linux grep 命令用於在文件中搜索特定的文本字符串。這是一個非常強大的工具,可以在很多方面使用,例如查找新行、非大寫行等。但是,grep 命令不適用於 PDF 文件。

這就是 pdfgrep 命令發揮作用的地方。它基本上是一個“grep”,但適用於 PDF 文件。本教程介紹了使用和安裝此命令。

安裝 pdfgrep

此命令並非隨所有 Linux 發行版一起提供,但在所有包管理器官方存儲庫中都可用。要安裝,您可以使用以下命令,具體取決於您的 Linux 發行版:

# On Debian and Ubuntu-based distributions
sudo apt update && sudo apt install pdfgrep
# On Fedora Workstation
sudo dnf install pdfgrep
# On Arch Linux
sudo pacman -S pdfgrep
安裝 pdfgrep Fedora

使用 pdfgrep

如果您以前使用過 grep 命令,那麼您會熟悉該實用程序。該命令的基本用法是:

pdfgrep Search_String FILENAME.pdf
在 PDF 中搜索文本

您可能希望執行不區分大小寫的搜索,因為搜索字符串在文檔中可以大寫。你可以使用它 --ignore-case 用命令標記。

pdfgrep --ignore-case Search_Strng FILENAME.pdf
搜索文本時忽略大小寫搜索文本時忽略大小寫

您還可以使用 -c 選項和完整命令直接在終端中獲取搜索結果的總數。

pdfgrep --ignore-case Search_Strng FILENAME.pdf --count

由於PDF文檔有頁碼,我們也可以得到搜索字符串所在的頁碼。你可以使用它 --page-number 選項和整個命令:

pdfgrep --page-number --ignore-case Search_String FILENAME.pdf
在搜索結果中顯示頁碼在搜索結果中顯示頁碼

還有一種方法可以在受密碼保護的 PDF 文件中進行搜索。保留命令的其餘部分並添加 --password 鎖定文檔的選項和密碼。

pdfgrep --password YOUR-PASSWORD Search_String FILENAME.pdf

概括

在我看來,pdfgrep 的美妙之處在於它與 grep 命令的相似性,使用戶更容易,因為他們不必記住本質上做同樣事情的新命令和選項。

參考

pdfgrep 的 Arch Linux 手冊頁