達成基準 1.2.2: キャプション (収録済) を理解する

意図

この達成基準の意図は、ろう又は難聴の利用者が、同期したメディアによる提示を見られるようにすることである。キャプションは、音声トラックを通じて利用可能なコンテンツの一部を提供する。キャプションは、会話を含むだけでなく、誰が話しているのかも特定し、意味のある効果音を含む、音声によって伝えられている非音声情報も含む。

現在のところ、時間依存の素材に対してキャプションを作成することは困難であるかもしれないことが認められている。これは、キャプションが利用可能になるまで情報を延期する、又は少なくともキャプションが利用可能になるまでの期限で、ろう者にアクセシブルでない時間依存のコンテンツを公開するという選択に直面するコンテンツ制作者をもたらす可能性がある。時間とともに、配信プロセスにキャプション付けを組み込むツールだけでなく、キャプションを付けるためのツールも、そのような遅延を短縮する又は除去するだろう。

同期したメディア自体が、ウェブページ上でテキストによってすでに提示もされている情報の代替の提示であるとき、キャプションは必要ない。例えば、ページ上の情報が、テキストで既に提示されている情報よりも多くの情報を提示していないが、認知、言語、又は学習障害のある利用者が理解しやすい同期したメディアによる提示を伴う場合、キャプションを提供する必要はない。なぜなら、その情報は、既にテキスト又は (例えば、画像の) テキストによる代替によって、ページ上に提供されているからである。

1.2.4 キャプション (ライブ)も参照のこと。

メリット

ろう又は難聴の利用者が、同期したメディアのコンテンツにある音声情報を、キャプションを通じて入手することができるようになる。

事例

キャプションを提供しているチュートリアル

映像クリップは結び目の作り方を示している。キャプションは次のように読める。

「(音楽)

船乗り、兵士、そして木こりのような人たちにとっては、

ロープを使って結び目を作るのは、重要なスキルでした。」

Whit Anderson による、書き起こしテキストのフォーマットのサンプルより。
複雑な法律文書は、様々な段落の内容を話す人を示す同期したメディアクリップを含んでいる。各クリップは、対応する段落に関連付けられている。その同期したメディアには、キャプションが提供されていない。
部品の説明とその必要な向きを含む取扱説明書には、部品が正しい向きで示されている同期したメディアによるクリップがある。その同期したメディアによるクリップには、キャプションが提供されていない。
オーケストラがコンサート映像にキャプションを提供している。キャプションは、台詞や歌詞を逐語的に提供するだけでなく、タイトル、楽章、作曲者などさまざまな情報を提供することで、利用者が音声の特徴を理解することを助け、楽器のみの音楽を明らかにしている。例えば、

「[管弦楽組曲第 3 番ニ長調 BWV 1068 - 第 2 曲 G 線上のアリア]

[作曲者ヨハンゼバスティアンバッハ]

♪ 遅いテンポの落ち着いたメロディ ♪」

注記

キャプションのスタイルガイドは言語によって異なる可能性がある。

達成方法

この節にある番号付きの各項目は、WCAG ワーキンググループがこの達成基準を満たすのに十分であると判断する達成方法、又は複数の達成方法の組み合わせを表している。しかしながら、必ずしもこれらの達成方法を用いる必要はない。その他の達成方法についての詳細は、WCAG 達成基準の達成方法を理解するの「その他の達成方法」を参照のこと。

十分な達成方法

G93: オープン (常に見える) キャプションを提供する
クローズドキャプションをサポートしたビデオプレーヤーのある、容易に利用可能なメディア形式を用いて、G87: クローズドキャプションを提供する
次のいずれかのウェブコンテンツ技術特有の達成方法を用いて、G87: クローズドキャプションを提供する

失敗例

以下に挙げるものは、WCAG ワーキンググループが達成基準の失敗例とみなした、よくある間違いである。

重要な用語

ASCII アート (ASCII art)

文字又はグリフの空間的配置によって作られた図画 (典型的には、ASCII で定義されている 95 の印字可能文字から作られる)。

支援技術 (assistive technology)

障害のある利用者の要件を満たすために、主流のユーザエージェントが提供する機能を超えた機能を提供するような、ユーザエージェントとして動作する、又は主流のユーザエージェントと共に動作するハードウェア及び／又はソフトウェア。

注記

支援技術が提供する機能としては、代替の提示 (例: 合成音声や拡大表示したコンテンツ)、代替入力手法 (例: 音声認識)、付加的なナビゲーション又は位置確認のメカニズム、及びコンテンツ変換 (例: テーブルをよりアクセシブルにするもの) などを挙げることができる。

注記

支援技術は、API を利用、監視することで、主流のユーザエージェントとデータやメッセージのやりとりをすることが多い。

注記

主流のユーザエージェントと支援技術との区別は、絶対的なものではない。多くの主流のユーザエージェントは、障害のある個人を支援する機能を提供している。基本的な差異は、主流のユーザエージェントが障害のある人もない人も含めて、広く多様な利用者を対象にしているのに対し、支援技術は、特定の障害のある利用者という、より狭く限られた人たちを対象にしているということである。支援技術により提供される支援は、対象とする利用者に特化した、よりニーズに適したものである。主流のユーザエージェントは、プログラムオブジェクトからのウェブコンテンツの抽出、マークアップの識別可能な構造への解釈といった、重要な機能を支援技術に対して提供する場合がある。

この文書の文脈において重要な支援技術としては、以下のものが挙げられる:

画面拡大ソフト及びその他の視覚的な表示に関する支援技術。視覚障害、知覚障害、及び読書困難などの障害のある人が、レンダリング後のテキスト及び画像の視覚的な読みやすさを改善するために、テキストのフォント、サイズ、間隔、色、音声との同期などを変更するのに使用している。
スクリーンリーダー。全盲の人がテキスト情報を合成音声あるいは点字で読み取るために使用している。
音声変換ソフトウェア。認知障害、言語障害、及び学習障害のある人が、テキストを合成音声に変換するために使用している。
音声認識ソフトウェア。何らかの身体障害のある利用者が使用することがある。
代替キーボード。特定の身体障害のある人がキーボード操作をシミュレートするのに使用している (ヘッドポインタ、シングルスイッチ、呼気・吸気スイッチ、及びその他の特別な入力デバイスを使った代替キーボードを含む)。
代替ポインティングデバイス。特定の身体障害のある人がマウスポインタとボタンの動きをシミュレートするのに使用している。

音声 (audio)

音の再生技術。

注記

音声には、合成して作られたもの (音声合成を含む)、実世界の音を収録したもの、又はその両方が含まれる。

音声解説 (audio description)

主音声のトラックだけでは理解できない重要で視覚的な詳細を説明するために、音声トラックに追加されたナレーション。

注記

映像の音声解説は、動作、登場人物、場面の変化、画面上のテキスト、及びその他の視覚的なコンテンツに関する情報を提供する。

注記

標準的な音声解説では、ナレーションが会話の合間に挿入される。(拡張音声解説も参照。)

注記

映像情報のすべてが既存の音声ですでに提供されている場合、補足の音声解説は不要である。

注記

"video description" や "descriptive narration" とも呼ばれる。

訳注

日本語では「音声ガイド」とも呼ばれる。

キャプション (captions)

そのメディアのコンテンツを理解するのに必要な、会話及び会話でない音声情報に対する、同期した視覚、又はテキストによる代替。

注記

キャプションは会話のみの字幕と似ているが、会話の内容だけを伝えるのではなく、その番組の内容を理解するために必要な効果音、音楽、笑い声、話者の特定、位置などを含む、会話でない音声情報と同等の内容も伝える点が異なる。

注記

クローズドキャプションは、音声情報と同等の内容で、プレーヤーによっては表示／非表示を切り替えることができるものを指す。

注記

オープンキャプションは、非表示にできないキャプションである。例えば、キャプションが同等の視覚化された文字画像で映像に埋め込まれている場合である。

注記

キャプションは、映像に含まれる情報を分かりにくくしたり遮ったりすべきではない。

注記

国によっては、キャプションは "subtitle" と呼ばれている。

訳注

subtitle には、「字幕」の意がある。日本では、キャプションのことを一般に字幕と呼ぶことが多い。

注記

音声解説にキャプションをつけることもできるが、つける必要はない。なぜなら、音声解説は既に視覚的に提示されている情報の説明だからである。

拡張音声解説 (extended audio description)

映像を一時停止することで追加の説明を付加するための時間を確保し、視聴覚提示に付加した音声解説。

注記

この手法は、追加の音声解説がないと映像の意味が損なわれてしまい、かつ会話又はナレーションの合間が短すぎる場合だけに用いられる。

自然言語 (human language)

人間とコミュニケーションをとるために話される、書かれる、又は (視覚的もしくは触覚的な手段で) 手話にされる言語。

注記

手話も参照。

文字画像 (image of text)

特定の視覚的効果を得るために非テキスト形式 (例えば画像) でレンダリングされたテキスト。

注記

テキスト以外の部分が重要な視覚的コンテンツである場合、画像に含まれるテキストは該当しない。

写真に写っている人の名札にある人名。

ライブ (live)

現実の出来事から取り込まれ、放送遅延以上の遅延なく受け手に送信される情報。

注記

放送遅延は、短時間の (通常は自動的な) 遅れで、例えば放送局に放送のタイミング[queue→cue]の調整や音声 (又は映像) の検閲のための時間を与えるものだが、意味のある編集ができるほどのものではない。

注記

もし情報が完全にコンピュータで生成されたものならば、それはライブではない。

メディアによるテキストの代替 (media alternative for text)

テキストで (直接又はテキストによる代替によって) 既に提示されている情報以上のものを提示していないメディア。

注記

メディアによるテキストの代替は、テキストを代替する提示の恩恵を受ける人たちのために提供される。テキストの代替メディアになりうるのは、音声しか含まないメディア、映像しか含まない (手話の映像を含む) メディア、又は音声付映像メディアである。

非テキストコンテンツ (non-text content)

プログラムによる解釈が可能な文字の並びではないコンテンツ、又は文字の並びが自然言語においても何をも表現していないコンテンツ。

注記

これには、 (文字による図画である) ASCII アート、顔文字、 (文字を置き換える) リートスピーク、文字を表現している画像が含まれる。

収録済 (prerecorded)

ライブではない情報。

プログラムによる解釈 (programmatically determined)

支援技術を含む様々なユーザエージェントが抽出でき、利用者に様々な感覚モダリティで提示できるような形のデータがコンテンツ制作者によって提供されたとき、そのデータがソフトウェアによって解釈されること。

マークアップ言語で、一般に入手可能な支援技術が直接アクセスできる要素と属性から解釈される。

非マークアップ言語の技術特有のデータ構造から解釈され、一般に入手可能な支援技術がサポートするアクセシビリティ API を通じて支援技術に提供される。

手話 (sign language)

意味を伝えるために、手と腕の動き、顔の表情又は身体の姿勢の組み合わせを用いる言語。

同期したメディア (synchronized media)

情報を提示するために、他のフォーマットと同期した音声もしくは映像、及び／又は時間に依存するインタラクティブな構成要素と同期した音声もしくは映像。ただし、そのメディアがメディアによるテキストの代替であって、そのように明確にラベル付けされているものは除く。

テキスト (text)

プログラムによる解釈が可能な文字の並びで、自然言語で何かを表現しているもの。

テキストによる代替 (text alternative)

非テキストコンテンツとプログラムで関連付けられるテキスト。又は非テキストコンテンツとプログラムで関連付けられるテキストから参照されるテキスト。プログラムで関連付けられたテキストとは、その場所を、非テキストコンテンツからプログラムによる解釈が可能なテキストである。

チャートの画像があり、その直後の段落にテキストによる説明がある。チャートに対する短いテキストによる代替で後に説明があることを示している。

注記

より詳細な情報は、「テキストによる代替」を理解するを参照。

ユーザエージェント (user agent)

ウェブコンテンツを取得して利用者に提示するあらゆるソフトウェア。

ウェブコンテンツの取得、レンダリング及びインタラクションを支援する、ウェブブラウザ、メディアプレーヤ、プラグイン、及びその他のプログラム (支援技術も含む)。

映像 (video)

写真又は画像を動かす、又はシーケンス化する技術。

注記

映像は、アニメーション画像もしく実写画像、又はその両方で構成され得る。

達成基準 1.2.2: キャプション (収録済) を理解する

意図

メリット

事例

関連リソース

キャプションの付け方ガイド

SMIL のリソース

キャプションの付け方のその他のリソース

達成方法

十分な達成方法

失敗例

重要な用語