スキャンされた PDF 文書で OCR を実行し、実際のテキストを提供する

達成方法に関する重要な情報

この達成方法 (参考) の使用法と、この達成方法が WCAG 2.1 達成基準 (規定) とどのように関係するのかに関する重要な情報については、WCAG 達成基準の達成方法を理解するを参照のこと。適用 (対象) のセクションは、その達成方法の範囲について説明しており、特定の技術に関する達成方法の存在は、その技術があらゆる状況で WCAG 2.1 を満たすコンテンツを作成するために使用できることを意味するものではない。

適用 (対象)

スキャンされた PDF 文書

これは、次の達成基準に関連する達成方法である:

解説

この達成方法の目的は、視覚的にレンダリングされたテキストが、視覚的提示によって読みやすさが損なわれることなく、知覚可能な方法で提示されることを保証することである。

テキストをスキャンした画像で構成される文書は、文書のコンテンツが画像であって検索可能なテキストではないので、本質的にアクセシブルではない。支援技術で語句を読み上げたり抽出したりすることはできない。利用者はテキストを選択、編集、サイズ変更またはリフローすることも、テキストや背景色を変更することもできない。作成者は PDF を操作してアクセシビリティを実現することができない。

これらの理由から、作成者はテキストの画像ではなく実際のテキストを使用し、Microsoft Word や Oracle Open Office などのオーサリングツールを使用してコンテンツを作成し PDF に変換すべきである。

作成者がソースファイルやオーサリングツールを利用できない場合は、光学式文字認識 (OCR) を使用することで、テキストをスキャンした画像を PDF に変換できる。その後で、Adobe Acrobat Pro を使用することでアクセシブルなテキストを作成できる。

事例

事例 1: Adobe Acrobat 9 Pro を使用して、テキストの画像ではなく実際のテキストを生成する

この事例は Adobe Acrobat Pro の場合を示している。同様の機能を実行するソフトウェアツールは他にも存在する。他のソフトウェアツールのリストについては、「」を参照のこと。

訳注:

上記「」に該当する記述が、WCAG 2.1 達成方法集の原文では削除されている。WCAG 2.0 達成方法集においては、PDF テクノロジーノートの中に「アクセシビリティがサポートされている PDF オーサリングツール」というセクションがある。

この事例では、テキストをスキャンした、単純な 1 ページの画像を使用している。文書に実際のテキストが確実に格納されるようにするには、以下の手順を実行する。

  1. 可能な限り高い解像度で文書をスキャンして、OCR のパフォーマンスを向上させる
  2. スキャンされた文書を Acrobat Pro に読み込む。文書構造を使用 > OCR テキスト認識 > OCR を使用して[テキストを認識]を選択する
  3. 次のダイアログボックスで、「ページ」(1 ページのみ変換する場合は「現在のページ」) の下の「すべてのページ」ラジオボタンを選択し、[OK]を選択する
  4. 「設定」リストで「編集」を選択する。次のダイアログボックスで、「PDF の出力形式」ドロップダウンリストの「テキストとグラフィック」を選択する。これはアクセシビリティを確保するために重要である
  5. 解像度とテキストの明瞭度に応じて、OCR が単語や文字のイメージを実際のテキストに変換する。Acrobat Pro で認識されないテキストは、「不明テキスト」と表示される。これは、正しく認識されなかったことが疑われるテキストエレメントである
  6. 不明テキストを修正するには、文書構造を使用 > OCR テキスト認識 > 最初の不明テキストを表示を選択する。Acrobat Pro では不明テキストが一つずつ表示され、不明テキストは Acrobat Pro TouchUp ツールを使用して修正できる
  7. アドバンスト > アクセシビリティ > 文書にタグを追加を実行する
  8. アドバンスト > アクセシビリティ > フルチェックを実行して、アクセシビリティをテストする
注記

別の方法として、文書構造を使用 > OCR テキスト認識 > すべての不明テキストを表示を使用し、すべての不明テキストを同時に表示して編集を素早く行うこともできる。

次の画像は、Adobe Acrobat Pro に表示されている、スキャンされた 1 ページの文書を示している。

図1. Acrobat Pro でスキャンしたページにスープのレシピが表示される。

次の画像は、文書にタグを追加した後で変換されたコンテンツを示している。コンテンツに正しくタグ付けし、最終的に意図した文書を得るには、TouchUp 読み上げ順序ツールとタグパネルを使用する必要があると考えられる。この事例では、らせん綴じの本の画像がタグ付けされ変換されている。TouchUp 読み上げ順序ツールを使用することで、画像が (装飾的な) 背景画像として非表示になっている。レシピのタイトルは、第 1 レベルのヘッダーとしてタグ付けされている。

図2. Acrobat Pro で変換されたタグ付きページにスープのレシピが表示されている。各スープの名前は 1 段目のヘッダ。らせん綴じの絵は装飾的なイメージで隠されている。

注記: Acrobat Pro では、ファイルに対して OCR を実行すると自動的にタグが追加される場合がある。

この事例のサンプルとして、実際のテキストを生成するサンプル (PDF ファイル)OCR の実行結果サンプル (PDF ファイル) がある。

参考リソース

この参考リソースは、あくまでも情報提供のみが目的であり、推薦などを意味するものではない。

検証

手順

  1. OCR を使用して各ページをテキストに変換した場合には、次のいずれかの方法を使用して、PDF が正しく変換されたことを確認する。

    • スクリーンリーダーまたは読み上げ機能があるツールを使用して PDF 文書を読み上げると、すべてのテキストが正しい順序で読み上げられている。
    • 文書をテキストとして保存すると、変換されたテキストが完全であり、正しい読み上げ順序になっている。
    • 変換されたコンテンツを表示できるツールを使用して PDF 文書を開くと、すべてのテキストが変換されて正しい読み上げ順序になっている。
    • アクセシビリティ API を通じて文書を表示するツールを使用して、すべてのテキストが変換されて正しい読み上げ順序になっていることを確認する。

期待される結果

  • 1. の結果が真である。