達成基準 1.2.8: メディアに対する代替 (収録済) を理解する

意図

この達成基準の意図は、視力が弱すぎてキャプションを確実に読むことができず、なおかつ聴力も弱すぎて発話や音声解説を確実に聞くことができない利用者が、視聴覚のコンテンツを利用できるようにすることである。時間の経過に伴って変化するメディアの代替を提供することで、それが可能になる。

このアプローチは、同期したメディアにある (視覚的及び聴覚的な) 情報すべてをテキスト形式で提供することである。時間の経過に伴って変化するメディアの代替は、同期したメディアのコンテンツで提供されているすべての情報をそのままに提供するものである。時間の経過に伴って変化するメディアの代替は、本のようなものがある。音声解説とは異なり、映像部分の説明が、既存の発話の合間だけに制限されることはない。視覚的な状況、登場人物の動きや表情、及びその他のあらゆる視覚的なものを含めて、すべての視覚的な情報について、説明を十分に提供する。さらに、発話ではない音声 (笑い声、画面の外から聞こえてくる声など) を説明し、すべての発話の書き起こしテキストを含む。説明と発話の書き起こしテキストの登場順は、同期したメディア自体での登場順と同じである。結果的に、時間の経過に伴って変化するメディアの代替は、同期したメディアコンテンツについて、音声解説だけでの場合よりもずっと多くの完全な説明を提供することが可能である。

同期メディアプレゼンテーションの一部として何らかの相互作用がある場合（例えば、「質問に答えるために今すぐ押してください」）、時間ベースのメディアの代替案は、ハイパーリンク、または並列機能を提供するために必要なものは何でも提供する。

視力が弱すぎてキャプションを確実に読むことができず、なおかつ聴力も弱すぎて発話を確実に聞き取ることのできない利用者は、点字ピンディスプレイを使うことによって、時間の経過に伴って変化するメディアの代替を利用することができる。

注記

達成基準 1.2.3、1.2.5、及び 1.2.7 では、映像トラックにある情報のすべてが音声トラックですでに提供されている場合に、音声解説を必要としない。

達成基準 1.2.3、1.2.5、及び 1.2.8 は、互いにある程度重複する。これは、最低限の適合レベルではコンテンツ制作者に選択肢を与え、より高い適合レベルでは追加の要件を提示するためである。達成基準 1.2.3 のレベル A では、コンテンツ制作者には、音声解説又は完全なテキストによる代替のどちらかを提供するという選択肢がある。レベル AA の適合を望む場合、達成基準 1.2.5 のもとで、コンテンツ制作者は音声解説を提供しなければならない。これは、達成基準 1.2.3 に対して代替を選択する場合に、レベル AA の要件をすでに満たしていることになるが、そうでなければ、音声解説の提供は追加の要件ということになる。達成基準 1.2.8 のもとでのレベル AAA では、コンテンツ制作者は拡張したテキストの説明を提供しなければならない。達成基準 1.2.3 と 1.2.5 の両方が音声解説だけを提供することで要件を満たしていた場合には、これは追加の要件ということになる。しかし、達成基準 1.2.3 をテキストの説明を提供することで満たし、なおかつ達成基準 1.2.5 の音声解説の要件を満たしている場合には、達成基準 1.2.8 は新しい要件を追加することにはならない。

メリット

よく見ることができない又は全く見ることができず、なおかつよく聞こえない又は全く聞くことができない人が、視聴覚的提示の情報にアクセスできる。

事例

事例 1. ある研修ビデオでの、時間の経過に伴って変化するメディアの代替

あるコミュニティセンターは、その会員向けに研修ビデオを購入し、それをセンターのイントラネットに置いている。そのビデオでは、新しい技術の使い方を説明していて、同時にそれを説明しながら実演する人物が登場している。そのコミュニティセンターでは、時間依存メディアに対して代替を提供している。ひとつの代替によって、同期したメディアの実演を見ることも、説明を聞くこともできない人を含むすべての会員が、提供されている内容をよりよく理解できるようになっている。

達成方法

この節にある番号付きの各項目は、WCAG ワーキンググループがこの達成基準を満たすのに十分であると判断する達成方法、又は複数の達成方法の組み合わせを表している。しかしながら、必ずしもこれらの達成方法を用いる必要はない。その他の達成方法についての詳細は、WCAG 達成基準の達成方法を理解するの「その他の達成方法」を参照のこと。

十分な達成方法

そのコンテンツに合致する状況を以下から選択すること。それぞれの状況には、WCAG ワーキンググループがその状況において十分であると判断する、番号付の達成方法 (又は、達成方法の組み合わせ) がある。

状況 A: 収録済の同期したメディアの場合:

次の達成方法のどれか一つを用いて、G69: 時間依存メディアに対する代替コンテンツを提供する
- G58: 非テキストコンテンツの直後に、時間依存メディアの代替へのリンクを配置する
次の達成方法のどれか一つを用いて、時間の経過に伴って変化するメディアの代替へリンクする
- H53: object 要素のボディを使用する

状況 B: 収録済の映像しか含まないコンテンツの場合:

G159: 映像のみの時間依存メディアに対する代替コンテンツを提供する

参考達成方法

適合のために必須ではないが、コンテンツをよりアクセシブルにするために、次の追加の達成方法を検討することが望ましい。ただし、すべての状況において、すべての達成方法が使用可能、又は効果的であるとは限らない。

H46: embed 要素と一緒に noembed 要素を用いる

失敗例

以下に挙げるものは、WCAG ワーキンググループが達成基準の失敗例とみなした、よくある間違いである。

F74: 達成基準 1.2.2 及び達成基準 1.2.8 の失敗例－テキストに対する同期したメディアによる代替を、代替としてラベル付けしていない

重要な用語

時間依存メディアに対する代替コンテンツ (alternative for time-based media)

時間依存の視覚的及び聴覚的情報を正しい順序で説明したテキストを含み、あらゆる時間依存のインタラクションによる結果を得る手段を提供している文書。

注記

同期したメディアのコンテンツを作るために用いられる脚本は、編集が終了した最終版の同期したメディアを正確に描写した脚本に修正されている場合だけ、この定義を満たす。

ASCII アート (ASCII art)

文字又はグリフの空間的配置によって作られた図画 (典型的には、ASCII で定義されている 95 の印字可能文字から作られる)。

支援技術 (assistive technology)

障害のある利用者の要件を満たすために、主流のユーザエージェントが提供する機能を超えた機能を提供するような、ユーザエージェントとして動作する、又は主流のユーザエージェントと共に動作するハードウェア及び／又はソフトウェア。

注記

支援技術が提供する機能としては、代替の提示 (例: 合成音声や拡大表示したコンテンツ)、代替入力手法 (例: 音声認識)、付加的なナビゲーション又は位置確認のメカニズム、及びコンテンツ変換 (例: テーブルをよりアクセシブルにするもの) などを挙げることができる。

注記

支援技術は、API を利用、監視することで、主流のユーザエージェントとデータやメッセージのやりとりをすることが多い。

注記

主流のユーザエージェントと支援技術との区別は、絶対的なものではない。多くの主流のユーザエージェントは、障害のある個人を支援する機能を提供している。基本的な差異は、主流のユーザエージェントが障害のある人もない人も含めて、広く多様な利用者を対象にしているのに対し、支援技術は、特定の障害のある利用者という、より狭く限られた人たちを対象にしているということである。支援技術により提供される支援は、対象とする利用者に特化した、よりニーズに適したものである。主流のユーザエージェントは、プログラムオブジェクトからのウェブコンテンツの抽出、マークアップの識別可能な構造への解釈といった、重要な機能を支援技術に対して提供する場合がある。

この文書の文脈において重要な支援技術としては、以下のものが挙げられる:

画面拡大ソフト及びその他の視覚的な表示に関する支援技術。視覚障害、知覚障害、及び読書困難などの障害のある人が、レンダリング後のテキスト及び画像の視覚的な読みやすさを改善するために、テキストのフォント、サイズ、間隔、色、音声との同期などを変更するのに使用している。
スクリーンリーダー。全盲の人がテキスト情報を合成音声あるいは点字で読み取るために使用している。
音声変換ソフトウェア。認知障害、言語障害、及び学習障害のある人が、テキストを合成音声に変換するために使用している。
音声認識ソフトウェア。何らかの身体障害のある利用者が使用することがある。
代替キーボード。特定の身体障害のある人がキーボード操作をシミュレートするのに使用している (ヘッドポインタ、シングルスイッチ、呼気・吸気スイッチ、及びその他の特別な入力デバイスを使った代替キーボードを含む)。
代替ポインティングデバイス。特定の身体障害のある人がマウスポインタとボタンの動きをシミュレートするのに使用している。

音声 (audio)

音の再生技術。

注記

音声には、合成して作られたもの (音声合成を含む)、実世界の音を収録したもの、又はその両方が含まれる。

音声解説 (audio description)

主音声のトラックだけでは理解できない重要で視覚的な詳細を説明するために、音声トラックに追加されたナレーション。

注記

映像の音声解説は、動作、登場人物、場面の変化、画面上のテキスト、及びその他の視覚的なコンテンツに関する情報を提供する。

注記

標準的な音声解説では、ナレーションが会話の合間に挿入される。(拡張音声解説も参照。)

注記

映像情報のすべてが既存の音声ですでに提供されている場合、補足の音声解説は不要である。

注記

"video description" や "descriptive narration" とも呼ばれる。

訳注

日本語では「音声ガイド」とも呼ばれる。

キャプション (captions)

そのメディアのコンテンツを理解するのに必要な、会話及び会話でない音声情報に対する、同期した視覚、又はテキストによる代替。

注記

キャプションは会話のみの字幕と似ているが、会話の内容だけを伝えるのではなく、その番組の内容を理解するために必要な効果音、音楽、笑い声、話者の特定、位置などを含む、会話でない音声情報と同等の内容も伝える点が異なる。

注記

クローズドキャプションは、音声情報と同等の内容で、プレーヤーによっては表示／非表示を切り替えることができるものを指す。

注記

オープンキャプションは、非表示にできないキャプションである。例えば、キャプションが同等の視覚化された文字画像で映像に埋め込まれている場合である。

注記

キャプションは、映像に含まれる情報を分かりにくくしたり遮ったりすべきではない。

注記

国によっては、キャプションは "subtitle" と呼ばれている。

訳注

subtitle には、「字幕」の意がある。日本では、キャプションのことを一般に字幕と呼ぶことが多い。

注記

音声解説にキャプションをつけることもできるが、つける必要はない。なぜなら、音声解説は既に視覚的に提示されている情報の説明だからである。

拡張音声解説 (extended audio description)

映像を一時停止することで追加の説明を付加するための時間を確保し、視聴覚提示に付加した音声解説。

注記

この手法は、追加の音声解説がないと映像の意味が損なわれてしまい、かつ会話又はナレーションの合間が短すぎる場合だけに用いられる。

自然言語 (human language)

人間とコミュニケーションをとるために話される、書かれる、又は (視覚的もしくは触覚的な手段で) 手話にされる言語。

注記

手話も参照。

文字画像 (image of text)

特定の視覚的効果を得るために非テキスト形式 (例えば画像) でレンダリングされたテキスト。

注記

テキスト以外の部分が重要な視覚的コンテンツである場合、画像に含まれるテキストは該当しない。

写真に写っている人の名札にある人名。

ライブ (live)

現実の出来事から取り込まれ、放送遅延以上の遅延なく受け手に送信される情報。

注記

放送遅延は、短時間の (通常は自動的な) 遅れで、例えば放送局に放送のタイミング[queue→cue]の調整や音声 (又は映像) の検閲のための時間を与えるものだが、意味のある編集ができるほどのものではない。

注記

もし情報が完全にコンピュータで生成されたものならば、それはライブではない。

メディアによるテキストの代替 (media alternative for text)

テキストで (直接又はテキストによる代替によって) 既に提示されている情報以上のものを提示していないメディア。

注記

メディアによるテキストの代替は、テキストを代替する提示の恩恵を受ける人たちのために提供される。テキストの代替メディアになりうるのは、音声しか含まないメディア、映像しか含まない (手話の映像を含む) メディア、又は音声付映像メディアである。

非テキストコンテンツ (non-text content)

プログラムによる解釈が可能な文字の並びではないコンテンツ、又は文字の並びが自然言語においても何をも表現していないコンテンツ。

注記

これには、 (文字による図画である) ASCII アート、顔文字、 (文字を置き換える) リートスピーク、文字を表現している画像が含まれる。

収録済 (prerecorded)

ライブではない情報。

プログラムによる解釈 (programmatically determined)

支援技術を含む様々なユーザエージェントが抽出でき、利用者に様々な感覚モダリティで提示できるような形のデータがコンテンツ制作者によって提供されたとき、そのデータがソフトウェアによって解釈されること。

マークアップ言語で、一般に入手可能な支援技術が直接アクセスできる要素と属性から解釈される。

非マークアップ言語の技術特有のデータ構造から解釈され、一般に入手可能な支援技術がサポートするアクセシビリティ API を通じて支援技術に提供される。

手話 (sign language)

意味を伝えるために、手と腕の動き、顔の表情又は身体の姿勢の組み合わせを用いる言語。

同期したメディア (synchronized media)

情報を提示するために、他のフォーマットと同期した音声もしくは映像、及び／又は時間に依存するインタラクティブな構成要素と同期した音声もしくは映像。ただし、そのメディアがメディアによるテキストの代替であって、そのように明確にラベル付けされているものは除く。

テキスト (text)

プログラムによる解釈が可能な文字の並びで、自然言語で何かを表現しているもの。

テキストによる代替 (text alternative<)/dt>

非テキストコンテンツとプログラムで関連付けられるテキスト。又は非テキストコンテンツとプログラムで関連付けられるテキストから参照されるテキスト。プログラムで関連付けられたテキストとは、その場所を、非テキストコンテンツからプログラムによる解釈が可能なテキストである。

チャートの画像があり、その直後の段落にテキストによる説明がある。チャートに対する短いテキストによる代替で後に説明があることを示している。

Note

より詳細な情報は、「テキストによる代替」を理解するを参照。

ユーザエージェント (user agent)

ウェブコンテンツを取得して利用者に提示するあらゆるソフトウェア。

ウェブコンテンツの取得、レンダリング及びインタラクションを支援する、ウェブブラウザ、メディアプレーヤ、プラグイン、及びその他のプログラム (支援技術も含む)。

映像 (video)

写真又は画像を動かす、又はシーケンス化する技術。

注記

映像は、アニメーション画像もしく実写画像、又はその両方で構成され得る。

映像しか含まない (video-only)

映像のみを含んだ (音声もインタラクションも含まない)、時間に依存する提示。