フリーのOCRを使って画像やPDF内の文字を抽出する方法

画像やPDFファイルから文字を抽出したい場合は、OCR機能を持つサービスやソフトを使うと文字を読み取る事ができます。

例えばPDFファイルの場合であれば、文字が画像として貼り付けられておりテキストデータとして取り出せないような事があります。 こういった場合PDF内の文字を選択しコピーしようとしてもできませんが、OCRを使って文字を読み取ればテキストデータを取り出し、再利用するといった事ができます。

そこでこのページではフリーのOCRを持つ無料クラウドサービス「Googleドキュメント」を使って、画像やPDFファイルから文字を抽出する方法を紹介します。 なおOCRとは次のような事をいいます。

OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術。

mediadrive.jp

OCRを使い画像やPDFから文字を抽出する手順

文字抽出用のサンプル

ここではフリーのOCR機能を持つ「Googleドキュメント(オフィス文書などのファイルをクラウド上で編集できる無料サービス)」を利用し、画像やPDFから文字を抽出していきます。

ですが専門ソフトというわけではないので、日本語の文字認識精度は若干低くなります。 例えば上記のような画像から文字を抽出した場合、下記のようにテキストデータが読み取られます。

文字抽出後のテキストデータ

このように筆記体ではない英語テキストは高い精度で抽出することができますが、日本語の場合は漢字が誤変換される可能性もあります。 しかし全てのテキストを一から打ち直すよりは作業が効率的になりますので、画像化されたテキストの文字起こしなどは楽になります。

なお画像やPDFから文字を抽出する手順は次のようになります。

  1. 文字を抽出したい画像・PDFをアップロード

    抽出元となるファイルをアップロードする手順

    まずは「Googleドライブ」にアクセスします。
    ※グーグルドライブを利用するにはグーグルアカウント(無料)を取得する必要があります。ですので「google」でアカウントを作成して下さい。

    次に「マイドライブ」をクリックし「ファイルをアップロード」を選択します。

    ファイル選択のダイアログが表示されるので、元となる文字を抽出したい画像、またはPDFを指定します。 するとオンラインストレージの「グーグルドライブ」にそのファイルがアップロードされます。

  2. Googleドキュメントを開く

    「Googleドキュメント」の場所

    先ほどアップロードしたファイルを右クリックし「アプリで開く」を選択します。 すると「Googleドキュメント」という項目があるのでクリックします。

  3. 自動で文字が抽出される

    文字が抽出されテキストデータとして取り出せる画面

    Googleドキュメントでファイルを開くと自動で、その画像またはPDF内の文字が読み取られます。

    読み取りが完了するとテキストデータに変換され、文字が抽出されます。

    なお抽出したテキストは、コピー・アンド・ペーストする事で、他のソフトや文書などに再利用することができます。

    また画像から文字を抽出する場合は、コントラストを高めるなど、できる限り鮮明な画像を用意した方が正確にテキストが読み取られます。 特に印刷物などの場合は文字が鮮明に見えるようにスキャンしましょう!

備考

重要書類など、クラウド上にアップロードしたくないPDFファイルや画像から文字を抽出したい場合は、フリーのOCRソフトを利用すると便利です。

下記ページでは、日本語の読み取りも可能なOCRフリーソフトを紹介しているので、ご覧下さい。

OCRフリーソフトで画像やPDF内の文字を抽出する方法
OCRフリーソフトで画像やPDF内の文字を抽出する方法
OCR(文字を読み取りコンピューターが利用できる文字コードに変換する技術)を使うと画像内のテキストはもちろん...