この記事では文字認識ソフト「Tesseract」(テッセラクト)のダウンロードからインストール、実際に使える状態にするまでの説明をします。
「Tesseract」インストーラーのダウンロード
まず、「Tesseract」の windows用のインストーラーをダウンロードします。ドイツのマンハイム大学図書館のページを開きます。
開いたページを下へ少しスクロールしたところに 「tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe」(下の画像の赤枠)とあるのでクリックしてダウンロードしてください。
「Tesseract」のインストール
ダウンロードが完了したらインストールします。
ダウンロードしたファイルをダブルクリックします。インストーラーが起動します。
全て「Next」をクリックでokです。
「Tesseract」を使えるように「パス」を通す
インストールが完了したら「パス」を通します。「Tesseract」はコマンドプロンプトから使いますがそのときに「Tesseract」のあるフォルダまで移動する必要があります。パスを通しておくとコマンドプロンプトのどのフォルダからでも「Tesseract」を使えるようになります。
「windows」キー(「スペース」の3つくらい左)と「x」キーを同時に押します。
下の画像のように画面左下にメニューが出るので「Y」キーを押します。
「システムの詳細設定」をクリック。
以下の画像のように「システムのプロパティ」というダイアログが表示されるので「環境変数」をクリック。
「環境変数」ダイアログが表示されます。ダイアログの上の方に「ユーザー環境変数」という項目があるので
それを編集していきます。
「変数」の「Path」を編集します。
「変数」に「Path」がない方は次のように操作してください。
「ユーザー環境変数」の「新規」をクリック。 「新しいユーザー変数」というダイアログが出るので「変数名」と「変数値」を入力します。下の画像のように「変数名」は「Path」、「変数値」は「Tesseract」をインストールしたフォルダのアドレスにします。インストール時に全て「Next」でインストールした方は「C:\Users\ユーザー名\AppData\Local\Tesseract-OCR」です。
「OK」をクリック。
「Path」のある方は次のように操作してください。「ユーザーの環境変数」の変数「Path」をクリックしてフォーカスし、「編集」をクリック。
「ユーザー変数の編集」というダイアログが出るので「変数値」の末尾に;(セミコロン)を追加してから「Tesseract」をインストールしたフォルダのアドレスを貼り付けてください。インストール時に全て「Next」でインストールした方は「C:\Users\ユーザー名\AppData\Local\Tesseract-OCR」です。
「OK」をクリック。
「環境変数」ダイアログも「OK」をクリックして閉じます。
「システムのプロパティ」ダイアログも「OK」をクリックして閉じます。
パスの確認
パスが通ったか確認します。コマンドプロンプトを起動します。「windows」マークのキーと「x」キーを同時に押します。そのあとで「c」を押します。
コマンドプロンプトが起動したら 「Tesseract」 とタイプ、「enter」キーを押してください。下の画像のように「Usage:」「OCR options」などと表示されていればパスが通っておりコマンドプロンプトから「Tesseract」を使用できます。
「Tesseract」の導入の記事は以上です。