PDFに関する記事 文書の電子化

紙の文字原稿をテキストデータにする方法

2018年8月28日

 紙の原稿があり、文字入力してテキストデータを作らなければならない場合がよくあります。

 できれば半自動でテキストデータ化して時間を節約したいところです。

 ここではAdobe® Acrobat®を使って文字原稿を半自動でテキストデータ化する方法をご紹介します。

ビジネスや創作活動を今後も続けていくための おすすめ

紙の文字原稿を半自動でテキストデータ化するために必要な道具類

 このページでは以下の道具を使用します。

  • スキャナー
  • Adobe® Acrobat®

カラーマネージメント技術は人のためにある。
命の尊厳について学ぶサイト

紙の文字原稿をテキストデータ化する 具体的な手順

手順1 原稿をスキャニングする

 紙の原稿をスキャナーでパソコンに取り込みます。

 スキャナーのユーティリティーソフトを使用して、文書に適したモード、線画に適したモードなどで取り込みます。

文字だけの原稿の場合

黒い字だけの原稿の場合

 紙の原稿が黒い文字だけの原稿なら、線画のモード、スキャン解像度300〜600dpi程度、が適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

色の付いた字がある場合

 文字だけの原稿ではあるものの、黒だけでなく色の付いた文字もある場合は、文書のモードなどが適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 この場合も、試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

写真など文字以外のものがある原稿の場合

 写真やグラフなど文字以外のものがある原稿の場合は以下のようにします。

文字は黒い文字だけの場合

 文字の部分は黒い文字だけなら、線画のモード、スキャン解像度300〜600dpi程度、が適しています。
 写真やグラフはまともにスキャンされませんが、欲しいのは文字の部分だけなので問題ありません。

文字の下地に色が入っている、色つきの文字がある、などの場合

 色が塗られた上に文字があったり、文字に色が付いているなど、白地に黒い文字という場所だけではない場合、文書のモード、スキャン解像度300〜600dpi程度、が適しています。

 スキャン解像度は字の大きさにより調節します。
 それほど小さい字がなければ300dpi、結構小さい字があれば600dpiにするなどします。

 この場合も、試しに1枚スキャンして、文字がきちんと読めるようにスキャンされているか確認するとよいでしょう。

手順2 スキャン済み画像をPDFファイルにする

 スキャンした画像をPDFファイルにします。

※スキャン結果がすでにPDFで保存されている場合は、この操作は不要です。

操作 Acrobatで[ファイル>作成>ファイルからPDF]と進みます。

操作 スキャンした画像データを選んで、「開く」をクリックします。
 画像データがPDFファイルになります。

手順3 Acrobatで文字認識をする

操作 [表示>ツール>スキャン補正>開く]と進み、スキャン補正に関するメニューを表示します。

操作 メニューのバーから「テキスト 認識 > このファイル内」を選びます。

操作 「テキスト認識」をクリックします。

手順4 テキストをコピーして使う

 目には見えませんが、以上の操作でPDF内にテキストデータが作成されました。

 選択ツールで文字の部分をなぞって選択し、コピーすればテキストをコピーできます。

 あとはテキストエディタなり、その他のソフトなりにペーストして使用します。

手順5 文字校正をする

 たいていの場合、Acrobatが文字認識に失敗している箇所が出てきます。

 ペーストしたテキストを確認し、文字の間違いを修正します。

方法は色々ある

 Acrobatでテキストデータを作り出した後、コピーペーストではなくメニューからテキストデータとして保存することもできます。

 ただ、原稿がレイアウトの入り組んだ文書の場合などは、どの部分のテキストがテキストデータの何行目あたりにくるか判断できません。

 そのような場合は単純にコピー&ペーストで作業した方が良いでしょう。

 Acrobatがなくてもテキストデータを作り出せるソフトは色々あります。
 例えばScanSnapのユーティリティーソフトやドキュワークスでも文字認識はできます。

 私の経験上は、Adobe Acrobatがあるならこれを使うのが処理が一番速かったです。

 以上、紙の原稿を、Adobe Acrobatを使って半自動でテキストデータ化する方法をご紹介しました。

当ブログ参考記事

Acrobat

文書向けスキャナー


ビジネスの存続に関わる重要事項 消費税・複数税率・インボイス制度

 消費税10%と複数税率に伴って導入された「インボイス制度」の影響で、かなりの数のフリーランス等の個人事業主や中小業者が廃業に追い込まれることが予想されています。
以下は当事務所加盟の商工会が制作したインボイスの説明動画とウェブページです。

※インボイス制度の本格実施は2023年10月

当事務所について

平間フォトレタッチ事務所

写真や種々のデータの色の問題など、芸術センスでは解決できない画像の色補正、フォトレタッチ、その他当ブログで扱っているような分野のご相談をお寄せいただけますと幸いです。

最近の業務の例

  • 商品の色測定、商品写真の色調補正
  • 建築物の写真の明るさ・色補正、歪み補正、人物・電線・電柱・車等の不要物消去、空合成など
  • 建築物の写真の外壁等を指定色に変更する処理
  • 曇天時に撮影した建築物の写真を晴天時の写真に変更する処理
  • 素材用写真の明るさ調整・レタッチ
  • アイドル・タレント等の写真のレタッチ・切り抜き
  • 結婚写真の明るさ・色補正、レタッチ
  • ウェブ用・印刷物用のプロフィール写真のレタッチ
  • フィルムスキャン後のデータの色調補正等

など

関連するコンテンツ

-PDFに関する記事, 文書の電子化
-, ,

© 2020 カラーマネジメント実践ブログ 〜フォトレタッチの現場から〜