AIリアルタイム自動字幕表示とハイコネを活用したローカル局展開〜Interop Tokyo2021〜「AI字幕×ハイコネ」レポート
編集部
TOKYO MX大槻氏、服部氏、ヤマハ森口氏
インターネットテクノロジーの最新動向とビジネス活用のトレンドを伝えていくイベント「Interop Tokyo 2021」が、4月14~16日にかけて千葉県・幕張メッセで開催。特別企画「Connected Media」では、放送業界の最先端の取り組みを紹介する専門セミナーが行われた。
ここでは、ローカル局で課題になっている字幕放送について語られたセッション「AI字幕×ハイコネ」の模様をレポートする。
本セッションは、AIによるリアルタイム自動字幕システムを利用したハイブリッドキャストでのテレビ画面への字幕表示、ならびにスマ−フォトフォンを起点としたハイブリッドキャストアプリ「ハイブリッドキャストコネクト(ハイコネ)」を利用した実験事例を紹介。今回は「マルチスクリーン型放送研究会(マル研)」を通じ、東京都を放送エリアとする東京メトロポリタンテレビジョン(TOKYO MX)の参加で行われたケースを取り上げる。
スピーカーとして、東京メトロポリタンテレビジョン株式会社 編成局 総合戦略部・大槻貴志氏、マルチスクリーン型放送研究会 字幕及びハイコネWG、IPTVフォーラム広報普及委員会副主査・服部弘之氏、ヤマハ株式会社 クラウドビジネス推進部 SoundUDグループ・森口翔太氏が登壇した。
■ローカル字幕放送の障壁となる「設備と人」問題
総務省は字幕放送等の普及目標を定めた「放送分野における情報アクセシビリティに関する指針」を策定し、放送事業者による取り組みを促している。
総務省が指定する「障害者向け放送普及行政の普及目標対象」における字幕放送の普及率は、民放キー5局が100%を達成しているのに対し、東京都域ローカル局にあたるTOKYO MXでは24.4%。その他、独立県域ローカル局の普及率も14.3%にとどまっている。
「TOKYO MXでもローカルニュースにリアルタイム字幕に付与しようとしたが、設備だけで数千万の投資が必要。運用費については30分番組で数万円、月額に換算すると数百万円の試算となり、1番組あたりの制作費が数十万レベルのローカル局としては断念せざるを得なかった」(大槻氏)
資金力に限りのあるローカル局においては字幕付与施設の設置や、担当人員の確保が難しく、これによって「地域の情報に字幕が付与されておらず、都市と地方に情報格差がある」(大槻氏)状態が発生していた。
■セカンドスクリーン展開で、放送法上の「訂正放送」を回避
今回の実験目的は、「ローカル局の字幕率の改善」と「セカンドスクリーンでの実証実験で課題になった目線移動の視認性改善」。AIを用いたテレビ番組の音声認識率は、BGMが被らない(純粋な発話)ベースで95%という水準まで上がっているが、「残り5%の間違いをどうするか課題だった」(大槻氏)。
マルチスクリーン型放送研究会を通して行ってきた前年度の実験までは、テレビにおける字幕放送は放送法上の「訂正放送の対象」となるため、わずかながらも生じてしまう誤差に対して訂正放送の必要がないセカンドスクリーンを用いた実証実験を実施。スマートフォンやPCなどの画面に、放送の音声を自動認識した文字を表示してきた。
「外でも放送内容を確認できるメリットがあったが、利用者からは『テレビとセカンドスクリーンとの視線の移動が忙しくなる』という声があった」と大槻氏。こうした問題を解消するため、放送と通信を融合させた「ハイブリッドキャスト」を用いたテレビ番組へのリアルタイム字幕表示を実験することにしたという。
■音源分離技術と放送原稿ベースの辞書で精度を向上、専用機材も開発
続いて、ヤマハ・森口氏が、今回の音声認識システム開発の経緯を説明。
同社は「さまざまな音を文字化、多言語化して届ける」ことを目的とした「SoundUD推進コンソーシアム」を主催。2017年「視聴覚障害者等向けの放送に関する研究会」での議論をきっかけに、2018年から総務省、NICT(情報通信研究機構)、放送局等と連携し、独自の音声トリガー技術等を活用しながら放送音声の文字化に関する実験に取り組んできたという。
2019年には総務省の「視聴支援緊急対策事業」を受託して、テレビの音声を放送局から提供を受けて音声認識エンジンの学習を開始するとともに、専用機材やアプリを開発。放送局での運用を視野に入れた取り組みを行ってきた。
2020年には同省の「自動字幕調査研究業務」を受託し、これまで課題であった「複数話者の字幕表示」にも対応。話者ごとの色分けや、音源分離が可能となったほか、放送原稿を元にした辞書登録システムを開発し、固有名詞の認識精度を向上。字幕付与率の課題が大きいローカル局での展開を見据え、スマホ起点での放送視聴やハイブリッドキャストを用いた字幕検証を開始したという。
■局端末で放送音声を自動認識、通常の字幕放送とほぼ同等の操作感
続いて、大槻氏が今回のシステムの概要を説明。今回は、放送局内に置かれたヤマハの専用端末へマスターアウトの音声を入力し、端末はクラウド上のシステムを介して音声を認識。リアルタイムWEB通信の標準プロトコルである「WebSocket」を用いて、スマートフォン上の「ハイコネ」アプリに字幕データを送出する。専用端末は1Uラックサイズと小型。データ放送の制御信号を受けることで、CM中の字幕オフにも自動で対応する。
スマートフォン側では、「ハイコネ」アプリを用いてテレビ受像機とペアリングし、アプリからハイブリッドキャストを駆動することで、リモコン操作を行うことなく、自動的に選局された状態でハイブリッドキャストが起動、テレビ上で放送画面とリアルタイム字幕を合成し、通常の字幕放送と変わらないインターフェースを提供する。
その後会場では、デモの模様を記録したVTRを上映。テレビ画面の上下枠に字幕を表示するスタイルや、従来型のアウトオーバーレイ表示にも対応しており、さらに表示行数の制御なども自由に行える様子が披露された。
■ユニバーサルデザインで地域メディアの信頼強化へ
その後、服部氏が運用の概要を説明。
従来のハイブリッドキャストはデータ放送に埋め込まれたURLを起点としていたが、スマートフォン起点の「ハイコネ」を用いることで、スマ−トフォンにてURLを指定。読み込まれたHTML5形式のデータをテレビに表示するというシンプルな仕様を実現しており、従来のWEB技術をそのまま応用できる点が大きな特徴だという。
アクセスするURLの安全性については、「AIT_URL可否判定サーバ」を利用。そのURLが放送局からのものかを判定することで、安全なコンテンツのみテレビに表示できるようにしているという。
■ローカル局の字幕付与率向上への切り札として
「マスターアウトからの音声を入れるだけで気軽に初められる字幕放送は、ローカル局の字幕率向上に寄与するのではないか」と大槻氏。この仕組みを用いた、ローカル局共通の字幕プラットフォーム構築にも希望をのぞかせた。
「広告収入の伸びが期待できないなか、既存視聴者の信頼をいかに強めるかがローカル局として求められているのではないか」と大槻氏。「字幕放送などのユニバーサルデザインは、地域情報を発信するメディアとして信頼に繋がり、経営基盤の強化につながっていくのではないか」と述べ、1時間弱のセッションを締めくくった。