Whatsapp

gImageReader – Linux で画像や PDF からテキストを抽出

Anonim

gImageReader は、画像や PDF からテキストを抽出できる無料のオープンソース PDF リーダーです。これは Tesseract-OCR のシンプルな Gtk/Qt フロントエンドとして構築されています。これは、 を使用してドキュメントや画像内のテキストやパターンを認識するオープンソースの OCR エンジンです。 人工知能

単独では、Tesseract はコマンド ライン ツールであり、端末に精通している Linux ユーザーのみが使用できるように制限されています。 gImageReader のおかげで、誰もがエンジンの OCR 効率を活用できるようになりました。

gImageReader は、Unicode 文字の存在によりサポートされているいくつかの言語のいずれかで PDF または画像ファイルからテキストをスキャンすることによって機能します.スペルチェックや翻訳タスクを実行できる、シンプルでよく整理されたカスタマイズ可能なユーザー インターフェイスを備えています。

gImageReaderの機能

gImageReader は使いやすく、ソフト コピー ドキュメントやアップロードされたメディアのスナップショットの操作をサポートします。スクリーンショット。興味のあるテキストの領域を選択し、必要なテキストのみを追加するオプションもあります.最終的に、gImagereader は PDF リーダーとテキスト抽出ツールの両方として機能します。ばかげたこと。

Linux に gImageReader をインストールする

gImageReader を最大限に活用するには、 Tesseract を手動でインストールする必要があります 言語パックを使用すると、画像やファイルを適切に分析できます。このパッケージは「Tesseract-ocr-eng」と呼ばれ、Debianのソフトウェア マネージャから入手できます。および Fedora ディストリビューション

Ubuntuを実行している場合は、PPAを追加するだけです。以下のコマンドを使用してインストール コマンドを実行します:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

オン DebianFedora、および OpenSUSE パッケージマネージャからインストールします。

$ sudo apt install gimagereader
$ sudo dnf install gimagereader
$ sudo zypper インストール gimagereader
.

AUR があなたをカバーします。また、アプリをソースから再構築する場合は、GitHub リポジトリの Wiki リンクに手順が記載されています。

あなたは画像から印刷されたテキストを抽出する人ですか?携帯電話で選択した領域のスナップショットを撮り、ラップトップにアップロードすることもできます。さらに優れているのは多言語サポートです。これは完全ではありませんが、現在コミュニティで最高のオプションの 1 つとなっています。

gImageReader はオープンソースの世界で最高の PDF リーダーの 1 つで、特に OCR 機能を備えているので、試してみてください。どのように好きなの。

いつものように、アプリでの経験を共有していただければ幸いです。また、以下のコメント欄に他の提案を追加してください。