OCRフリーソフトで画像やPDF内の文字を抽出する方法

OCR(文字を読み取りコンピューターが利用できる文字コードに変換する技術)を使うと画像内のテキストはもちろん、文字情報がないPDFファイル内の文字でもテキストデータとして抽出することができます。

現在ではOCRが使える無料クラウドサービスも数多くありますが、抽出元となる画像・PDFファイルをクラウド上にアップロードしなければなりません。 しかし重要書類などアップロードできないようなファイルの場合は、フリーのOCRソフトを使用する必要があります。

そこでこのページでは、無料で使えるOCRフリーソフト「GT Text」を利用して画像やPDF内の文字を抽出する方法を紹介します。 なお「GT Text」は海外のOCRフリーソフトとなりますが、日本語の読み取りも可能です。

画像やPDF内の文字を抽出する手順

  1. OCRソフト「GT Text」を導入

    「窓の社からダウンロード」の場所

    まずは「GT Text」にアクセスし、フリーのOCRソフト「GT Text」をダウンロードします。

    「窓の社からダウンロード」をクリックするとダウンロードが開始されますので、利用環境に対応したバージョンをダウンロードして下さい。

    完了したらダウンロードしたフォルダを開き、表示される手順に従いインストールします。

    インストール後「GT Text」を起動します。

  2. 日本語に対応させる

    「Add languages」の場所 「Language data」の場所 「Download and install Japanese language data」の場所 「Settings…」と「jpn」の場所

    日本語に対応させるために「Add languages」をクリックします。

    「OCR-Languages Tesseract」が表示されるので「Language data」をクリックします。

    するとその下に項目が表示されるので「Download and install Japanese language data」を選択し、インストールをクリックします。

    インストールが完了したらメニューの「File」をクリックし、「Settings…」を選択します。

    そして項目にある「jpn」を選択し「ok」をクリックします。

    これで日本語に対応します。

  3. 文字を読み取る

    文字を読み取り抽出する手順

    「File」をクリックし、「open」を選択します。

    そこで文字を抽出したい画像ファイルを選択し開きます。

    選択した画像が表示されるので、読み取りたい範囲をドラッグして選択します。 するとOCR機能が働き、選択部分がテキストデータに変換されます。

    抽出したテキストが表示されるので「続行」をクリックすると、その抽出テキストがクリップボードにコピーされるので他のソフトや文書に貼り付ける事で利用できます。

    なおPDFファイルの場合は画面キャプチャーして画像に置き換える、または「アクロバット リーダーDC」などの対応ソフトでPDFを開くと文字を抽出できます。

    「アクロバット リーダーDC」でPDFを開く場合は、PDFを開きキーボードの「Alt」+「C」キーを押した後にドラッグして範囲選択する事でPDF内の文字を抽出できます。

テキスト抽出の精度

文字抽出用のサンプル画像

OCRフリーソフトの「GT Text」は、簡易OCRソフトのため他の専門ソフトに比べると日本語の文字認識精度が少し低いです。 例えば上記画像内の文字を抽出してみると次のようになります。

文字読み取り用のサンプル

OCRでテキストを抽出する場合のsamp用画像です。 像はもちろん、文字報がないPDFファルでもテキス卜を抽出する事ができます。

手順は次のと

グ一グルドライブにアクセス
2文字を抽出したいPDFまたは画像ファルをアップロ一ド
3そのファイルを右クリツクし、グ一グルドキュメント開く
4_自動でPDF`もしくは画像内の文字が読み取られ`テキストデ一タに変換される。

You can extract characters from images and PDF with really simple operation, so let’s do it!

上記のように英語は精度が高いですが、日本語の文字を抽出する場合は誤変換が若干多くなります。 ですが画像からテキストを文字起こしする場合、一から打ち直すよりは効率的ですので使い方によっては便利です。

また英語はかなり高精度で文字を抽出してくれるので、英文などを画像から抽出する際にはオススメです。

なお文字を抽出する時は、一気に全部読み取ろうとせず、段落ごとなどに分けて少しずつ読み取ると多少は認識精度が上がるようです。

備考

日本語の文字認識精度が高いOCRを使用したい場合は、フリーソフトではないですが、OCR機能を持つ無料クラウドサービス「Googleドキュメント」が便利です。 詳しくは下記ページに記載してますのでご覧ください。

フリーのOCRを使って画像やPDF内の文字を抽出する方法
画像やPDFファイルから文字を抽出したい場合は、OCR機能を持つサービスやソフトを使うと文字を読み取る事ができます。 例えばPDFファイルの場合であれば、文字が画...