文書の電子化

紙の文字原稿をテキストデータにする方法

投稿日:2018年8月28日 更新日:

 紙の原稿があり、文字入力してテキストデータを作らなければならない場合がよくあります。

 できれば半自動でテキストデータ化して時間を節約したいところです。

 ここではAdobe® Acrobat®を使って文字原稿を半自動でテキストデータ化する方法をご紹介します。

紙の文字原稿を半自動でテキストデータ化するために必要な道具類

 このページでは以下の道具を使用します。

  • スキャナー
  • Adobe® Acrobat®

紙の文字原稿をテキストデータ化する 具体的な手順

手順1 原稿をスキャニングする

 紙の原稿をスキャナーでパソコンに取り込みます。

 スキャナーのユーティリティーソフトを使用して、文書に適したモード、線画に適したモードなどで取り込みます。

文字だけの原稿の場合

黒い字だけの原稿の場合

 紙の原稿が黒い文字だけの原稿なら、線画のモード、スキャン解像度300〜600dpi程度、が適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

色の付いた字がある場合

 文字だけの原稿ではあるものの、黒だけでなく色の付いた文字もある場合は、文書のモードなどが適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 この場合も、試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

写真など文字以外のものがある原稿の場合

 写真やグラフなど文字以外のものがある原稿の場合は以下のようにします。

文字は黒い文字だけの場合

 文字の部分は黒い文字だけなら、線画のモード、スキャン解像度300〜600dpi程度、が適しています。
 写真やグラフはまともにスキャンされませんが、欲しいのは文字の部分だけなので問題ありません。

文字の下地に色が入っている、色つきの文字がある、などの場合

 色が塗られた上に文字があったり、文字に色が付いているなど、白地に黒い文字という場所だけではない場合、文書のモード、スキャン解像度300〜600dpi程度、が適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 この場合も、試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

手順2 スキャン済み画像をPDFファイルにする

 スキャンした画像をPDFファイルにします。

※スキャン結果がすでにPDFで保存されている場合は、この操作は不要です。

操作 Acrobatで[ファイル>作成>ファイルからPDF]と進みます。

操作 スキャンした画像データを選んで、「開く」をクリックします。
 画像データがPDFファイルになります。

手順3 Acrobatで文字認識をする

操作 [表示>ツール>スキャン補正>開く]と進み、スキャン補正に関するメニューを表示します。

操作 メニューのバーから「テキスト 認識 > このファイル内」を選びます。

操作 「テキスト認識」をクリックします。

手順4 テキストをコピーして使う

 目には見えませんが、以上の操作でPDF内にテキストデータが作成されました。

 選択ツールで文字の部分をなぞって選択し、コピーすればテキストをコピーできます。

 あとはテキストエディタなり、その他のソフトなりにペーストして使用します。

手順5 文字校正をする

 たいていの場合、Acrobatが文字認識に失敗している箇所が出てきます。

 ペーストしたテキストを確認し、文字の間違いを修正します。

方法は色々ある

 Acrobatでテキストデータを作り出した後、コピーペーストではなくメニューからテキストデータとして保存することもできます。

 ただ、原稿がレイアウトの入り組んだ文書の場合などは、どの部分のテキストがテキストデータの何行目あたりにくるか判断できません。

 そのような場合は単純にコピー&ペーストで作業した方が良いでしょう。

 Acrobatがなくてもテキストデータを作り出せるソフトは色々あります。
 例えばScanSnapのユーティリティーソフトやドキュワークスでも文字認識はできます。

 私の経験上は、Adobe Acrobatがあるならこれを使うのが処理が一番速かったです。

 以上、紙の原稿を、Adobe Acrobatを使って半自動でテキストデータ化する方法をご紹介しました。

スポンサーリンク

当ブログ参考記事

Acrobat

文書向けスキャナー

写真スキャニングサービス

 写真スキャニングサービスの大手「節目写真館」でキャンペーン実施中とのことです。

税制問題特集

2019参院選は終わりましたが、消費増税の是非について引き続き議論が続いています。
以下は当事務所加盟の商工会の制作による、主権者として判断の参考になる動画とウェブページです。

関連するコンテンツ

当事務所の紹介

平間フォトレタッチ事務所

写真や種々のデータの色の問題など、芸術センスでは解決できない画像の色補正、フォトレタッチ、その他当ブログで扱っているような分野のご相談をお寄せいただけますと幸いです。

-文書の電子化
-, ,

Copyright© カラーマネジメント実践ブログ 〜フォトレタッチの現場から〜 , 2019 All Rights Reserved.