解説書達成基準 1.2.4:キャプション (ライブ) (レベル AA)

要約

目標: ライブの映像にキャプションがある。
何をすればよいか: リアルタイムの映像に含まれる音声コンテンツに、同期したテキストを提供する。
なぜそれが重要か: ろう又は難聴の人々が、リアルタイムの映像コンテンツの音声を理解できる。

意図

この達成基準の意図は、ろう又は難聴の利用者がリアルタイムの提示を見られるようにすることである。キャプションは、音声トラックを通じて利用可能なコンテンツの一部を提供する。キャプションには、会話を含めるだけでなく、誰が話しているのかも特定し、そして、効果音及びその他の重要な音声を表記する。

この達成基準は、同期したメディアの放送に適用することを意図しており、ウェブアプリケーションを介し 2 人以上の個人間で行う双方向のマルチメディア電話に対し、利用者のニーズにかかわらずキャプションの提供を求めることを意図していない。キャプションを提供する責任は、アプリケーションではなく、コンテンツの提供者 (電話をかけた人) 又は「ホスト」として電話をかけた人に課せられる。

利点

ろう又は難聴の利用者が、同期したメディアのコンテンツにある音声情報を、キャプションを通じて入手することができるようになる。

事例

ウェブキャスト: 報道機関が、ライブのキャプション付きウェブキャストを提供している。
音楽のウェブキャスト: オーケストラが、個々のリアルタイムウェブパフォーマンスのコミュニケーションアクセスリアルタイムトランスレーション (CART) によりキャプションを提供している。CART サービスは、歌詞や会話を取り込むだけでなく、タイトル及び楽章、作曲者、利用者が音楽の性質を理解するのに役立つあらゆる情報によって、歌のない音楽を特定する。

テクニック

この節にある番号付きの各項目は、WCAG ワーキンググループがこの達成基準を満たすのに十分であると判断するテクニック、又は複数のテクニックの組み合わせを表している。しかしながら、必ずしもこれらのテクニックを用いる必要はない。その他のテクニックについての詳細は、WCAG 達成基準のテクニックを理解するの「その他のテクニック」を参照のこと。

十分なテクニック

G9: Creating captions for live synchronized media、かつ、G93: Providing open (always visible) captions
クローズドキャプションをサポートするビデオプレーヤーのある、すぐに利用可能なメディア形式を用いて、G9: Creating captions for live synchronized media、かつ、G87: Providing closed captions
次のどれか一つを用いて、G9: Creating captions for live synchronized media、かつ、G87: Providing closed captions:
- SM11: Providing captions through synchronized text streams in SMIL 1.0
- SM12: Providing captions through synchronized text streams in SMIL 2.0

注記

キャプションは、リアルタイムのテキスト変換サービスを用いて生成できるかもしれない。

重要な用語

ASCII アート (ASCII art)

文字又はグリフの空間的配置によって作られた図画 (典型的には、ASCII で定義されている 95 の印字可能文字から作られる)。

支援技術 (assistive technology)

障害のある利用者の要件を満たすために、主流のユーザエージェントが提供する機能を超えた機能を提供するような、ユーザエージェントとして動作する、又は主流のユーザエージェントと共に動作するハードウェア及び／又はソフトウェア。

注記

支援技術が提供する機能としては、代替の提示 (例: 合成音声や拡大表示したコンテンツ)、代替入力手法 (例: 音声認識)、付加的なナビゲーション又は位置確認のメカニズム、及びコンテンツ変換 (例: テーブルをよりアクセシブルにするもの) などを挙げることができる。

注記

支援技術は、API を利用、監視することで、主流のユーザエージェントとデータやメッセージのやりとりをすることが多い。

注記

主流のユーザエージェントと支援技術との区別は、絶対的なものではない。多くの主流のユーザエージェントは、障害のある個人を支援する機能を提供している。基本的な差異は、主流のユーザエージェントが障害のある人もない人も含めて、広く多様な利用者を対象にしているのに対し、支援技術は、特定の障害のある利用者という、より狭く限られた人たちを対象にしているということである。支援技術により提供される支援は、対象とする利用者に特化した、よりニーズに適したものである。主流のユーザエージェントは、プログラムオブジェクトからのウェブコンテンツの抽出、マークアップの識別可能な構造への解釈といった、重要な機能を支援技術に対して提供する場合がある。

この文書の文脈において重要な支援技術としては、以下のものが挙げられる:

画面拡大ソフト及びその他の視覚的な表示に関する支援技術。視覚障害、知覚障害、及び読書困難などの障害のある人が、レンダリング後のテキスト及び画像の視覚的な読みやすさを改善するために、テキストのフォント、サイズ、間隔、色、音声との同期などを変更するのに使用している。
スクリーンリーダー。全盲の人がテキスト情報を合成音声あるいは点字で読み取るために使用している。
音声変換ソフトウェア。認知障害、言語障害、及び学習障害のある人が、テキストを合成音声に変換するために使用している。
音声認識ソフトウェア。何らかの身体障害のある利用者が使用することがある。
代替キーボード。特定の身体障害のある人がキーボード操作をシミュレートするのに使用している (ヘッドポインタ、シングルスイッチ、呼気・吸気スイッチ、及びその他の特別な入力デバイスを使った代替キーボードを含む)。
代替ポインティングデバイス。特定の身体障害のある人がマウスポインタとボタンの動きをシミュレートするのに使用している。

音声 (audio)

音の再生技術。

注記

音声には、合成して作られたもの (音声合成を含む)、実世界の音を収録したもの、又はその両方が含まれる。

音声解説 (audio description)

主音声のトラックだけでは理解できない重要で視覚的な詳細を説明するために、音声トラックに追加されたナレーション。

注記

映像の音声解説は、動作、登場人物、場面の変化、画面上のテキスト、及びその他の視覚的なコンテンツに関する情報を提供する。

注記

標準的な音声解説では、ナレーションが会話の合間に挿入される。(拡張音声解説も参照。)

注記

映像情報のすべてが既存の音声ですでに提供されている場合、補足の音声解説は不要である。

注記

"video description" や "descriptive narration" とも呼ばれる。

訳注

日本語では「音声ガイド」とも呼ばれる。

キャプション (captions)

そのメディアのコンテンツを理解するのに必要な、会話及び会話でない音声情報に対する、同期した視覚、又はテキストによる代替。

注記

キャプションは会話のみの字幕と似ているが、会話の内容だけを伝えるのではなく、その番組の内容を理解するために必要な効果音、音楽、笑い声、話者の特定、位置などを含む、会話でない音声情報と同等の内容も伝える点が異なる。

注記

クローズドキャプションは、音声情報と同等の内容で、プレーヤーによっては表示／非表示を切り替えることができるものを指す。

注記

オープンキャプションは、非表示にできないキャプションである。例えば、キャプションが同等の視覚化された文字画像で映像に埋め込まれている場合である。

注記

キャプションは、映像に含まれる情報を分かりにくくしたり遮ったりすべきではない。

注記

国によっては、キャプションは "subtitle" と呼ばれている。

訳注

subtitle には、「字幕」の意がある。日本では、キャプションのことを一般に字幕と呼ぶことが多い。

注記

音声解説にキャプションをつけることもできるが、つける必要はない。なぜなら、音声解説は既に視覚的に提示されている情報の説明だからである。

拡張音声解説 (extended audio description)

映像を一時停止することで追加の説明を付加するための時間を確保し、視聴覚提示に付加した音声解説。

注記

この手法は、追加の音声解説がないと映像の意味が損なわれてしまい、かつ会話又はナレーションの合間が短すぎる場合だけに用いられる。

自然言語 (human language)

人間とコミュニケーションをとるために話される、書かれる、又は (視覚的もしくは触覚的な手段で) 手話にされる言語。

注記

手話も参照。

文字画像 (image of text)

特定の視覚的効果を得るために非テキスト形式 (例えば画像) でレンダリングされたテキスト。

注記

テキスト以外の部分が重要な視覚的コンテンツである場合、画像に含まれるテキストは該当しない。

ライブ (live)

現実の出来事から取り込まれ、放送遅延以上の遅延なく受け手に送信される情報。

注記

放送遅延は、短時間の (通常は自動的な) 遅れで、例えば放送局に放送のタイミング[queue→cue]の調整や音声 (又は映像) の検閲のための時間を与えるものだが、意味のある編集ができるほどのものではない。

注記

もし情報が完全にコンピュータで生成されたものならば、それはライブではない。

メディアによるテキストの代替 (media alternative for text)

テキストで (直接又はテキストによる代替によって) 既に提示されている情報以上のものを提示していないメディア。

注記

メディアによるテキストの代替は、テキストを代替する提示の恩恵を受ける人たちのために提供される。テキストの代替メディアになりうるのは、音声しか含まないメディア、映像しか含まない (手話の映像を含む) メディア、又は音声付映像メディアである。

非テキストコンテンツ (non-text content)

プログラムによる解釈が可能な文字の並びではないコンテンツ、又は文字の並びが自然言語においても何をも表現していないコンテンツ。

注記

これには、 (文字による図画である) ASCII アート、顔文字、 (文字を置き換える) リートスピーク、文字を表現している画像が含まれる。

プログラムによる解釈 (programmatically determined)

支援技術を含む様々なユーザエージェントが抽出でき、利用者に様々な感覚モダリティで提示できるような形のデータがコンテンツ制作者によって提供されたとき、そのデータがソフトウェアによって解釈されること。

手話 (sign language)

意味を伝えるために、手と腕の動き、顔の表情又は身体の姿勢の組み合わせを用いる言語。

同期したメディア (synchronized media)

情報を提示するために、他のフォーマットと同期した音声もしくは映像、及び／又は時間に依存するインタラクティブな構成要素と同期した音声もしくは映像。ただし、そのメディアがメディアによるテキストの代替であって、そのように明確にラベル付けされているものは除く。

テキスト (text)

プログラムによる解釈が可能な文字の並びで、自然言語で何かを表現しているもの。

テキストによる代替 (text alternative)

非テキストコンテンツとプログラムで関連付けられるテキスト。又は非テキストコンテンツとプログラムで関連付けられるテキストから参照されるテキスト。プログラムで関連付けられたテキストとは、その場所を、非テキストコンテンツからプログラムによる解釈が可能なテキストである。

注記

より詳細な情報は、「テキストによる代替」を理解するを参照。

ユーザエージェント (user agent)

ウェブコンテンツを取得して利用者に提示するあらゆるソフトウェア。

映像 (video)

写真又は画像を動かす、又はシーケンス化する技術。

注記

映像は、アニメーション画像もしく実写画像、又はその両方で構成され得る。