サイト共通メニューへジャンプ
会員向けメニューへジャンプ
News Letter Vol.004 【講演録】アクセシビリティ特別セミナー
「電子出版のアクセシビリティについて」
2011年08月03日 13:00-17:00
日本教育会館701・702(中会議室)
電子出版ビジネスモデルのあるべき姿
●アクセシビリティの市場
特別委員会 丸山信人委員長(インプレスホールディングス)
平成22年度総務省からの委託事業「新ICT利活用サービス創出支援事業」の詳細と、視覚障害者の方をはじめ、読書障害者の方々にも電子出版を本として読んでいただけるためにどういった技術が必要かということを検討してきましたのでご報告させていただきます。
みなさまの中で、実ビジネスにこの技術を使っていただいて、できるだけ多く新たに読んでいただける環境作りをしていきましょうというのが、今日の趣旨です。
現在の電子出版市場規模は、2010年度の電子書籍ビジネス報告書(インプレスR&D)によると前年比13.2%増の650億円。2015年予測で電子書籍は2000億円市場となると予測されています。
さらに電子雑誌が後4年の中で200億円ぐらいの市場として立ち上がってくるでしょう。そのため電子出版という大きな概念においては、2200億円市場になると思います。実は、アクセシビリティ市場は、この中に含まれておりませんので、まだまだ電子出版市場は広がると予測されます。
○誰にでも優しい電子出版を目指して
アクセシビリティを考慮した、電子出版サービスを実現するには、どういった技術が必要なのか。誰にでも優しいとは、紙の出版物が読み辛くなった高齢者が約3000万人、言語取得課程に満たない子供(5~14歳)は約1100万人、病院にいるなどの外出できない患者は約120万人、視覚障害者約31万人(矯正が必要な人は約6552万人)、また健常者でもなかなか文字が読み辛い人に向けて、音声技術やそれらに必要なDRM・UI(ユーザーインターフェース)というものが有効に働くと思っています。
紙の出版物では読み辛い、あるいは読んだことがない方々に向けて、デジタルならではの特性を活かして提供したいと思っています。
それには健全な形で、ビジネスとして立ち上げないといけません。マーケットとして見込める数字としては、2020年で、こうした方々が1500万人ぐらいいて、3000億円ぐらいの市場が見込めると考えています。
このようなアクセシビリティのマーケットを形成するための、技術として、さまざまな仕様案とガイドライン案を作成しました。
その一つが、TTS(Text To Speech)と呼ばれている読み上げのための制作ルール案。次に異なるデバイス上でも読める、UIのための機能基準案。文字拡大の機能は、各種デバイスで読みやすい文字サイズについて実験を試みました。そして、こうしたものに対応するためのデータ形式としてユニバーサル・コンテンツ・コンテナ・フォーマット(UCCF)案を提言させていただきました。また、過去の出版資産の中で、画像データでしか残っていないものも読めるようにするテキスト抽出方法のガイドラインも策定しています。
ぜひ、これらの技術を活かして、誰もが読める電子出版市場を一緒に創り上げていければと願っています。
●TTS対応の電子出版
日立コンサルティング 岡山将也
われわれが目標にしているのは、アクセシビリティ×ユニバーサルデザインです。万人に利用しやすくする行為が、高齢者や障害者にとって利用しやすいとは限りません。逆に万人にとって良くても、障害者に使いやすいとは限りません。これら2つを掛け合わすことが重要と考えています。障害者や高齢者に少しでも利用しやすく、そして健常者も含めた万人が使いやすい出版を目指すにはどうすればよいかを考えてみたいと思います。
○なぜ、いまTTSなのか
目で見て、 頭の中で音声化(内読)して理解をするというのが普通の読書パターンです。
しかし、目で見ることができない場合は、内読できないので理解できません。目で見ることができないと、声に出せないので耳で聞けない、聞けないから理解できないという状況になります。頭の中に入力する部分がないのなら、入力する部分を補助してあげればよいという発想が生まれます。文章を音声読み上げなどによって補ってあげれば理解できる。これが、TTSを利用する目的です。
○アクセシビリティの必要性
文字が読めない読書障害者は、視覚障害者と読字障害者です。視覚障害者は、障害者手帳を持っている約31万人と思われがちですが、日本眼科学会の調べでは164万人いると言われています。164万人の内訳は、緑内障が24%、糖尿病網膜症が21%、変性筋腫12%、加齢黄斑変性症11%、白内障が7%と、上位の五疾患で4分の3を占めています。2030年頃には202万人になると言われており、読みたくても読めない人が増えているという実体が伺えます。
一方、読字障害者はどれだけいるかというと、義務教育課程の学習障害者、注意欠陥多動性障害(ADHD)、高機能自閉症(アスペルガー症候群)の人たちは、約68万人いると言われています。大人まで含めると、英米では人口の10%ぐらいで、日本は5%です。すなわち、日本には、640万人程いることになります。視覚障害者と読字障害者とを合わせると、日本の人口の約6.3%、約800万人になります。
○TTS対応電子出版制作ガイドライン
実際に目の見えない人たちが、本を読むときに何をやっているかというと、朗読ボランティアやDAISYボランティアによって制作された録音図書やDAISY図書を利用します。しかしボランティアが用意していない本を読むときはどうでしょうか。このような場合は、自分で本を裁断して、1ページごとスキャンして、OCRをかけて、読んでいるという状況です。もちろんきちんと認識出来ないものもありますから、完全な文章でなくとも、読めればいいという状況のようです。
今後、アクセシビリティを考慮して制作される書籍の流れとしては、著者から来る段階で文章内に読み仮名(ルビ)を入れてもらいます。すなわち、文章内にルビや、ここはこう読みなさいという指示(ルール)を入れます。ルビや読み指示のことを記譜と呼ぶことにします。また、アクセシビリティを考慮した書籍の制作費は、現在の三割増しぐらいのコストが掛かると言われています。増えた分のコストは、市場が活性化すれば、すぐに回収できるでしょう。読み指示さえあれば、TTSエンジンは、必ずその通りに読んでくれます。
テキスト表記仕様に関する課題としては、読み仮名(ルビ)の表記の仕方、読み仮名のアクセントの表現方法、総ルビやパラルビの考え方、拗促音を小書きにしない習慣などがあります。また、外字や異体字はTTSエンジンが読めないため、通常の第一水準と第二水準を用いて文章を書いてもらう必要があります。これらの方針や課題を、「TTS対応電子出版制作ガイドライン」にまとめました。
その他、今後のテーマとしては、別読みしたことの読者への明示をどうするのかという課題があります。例えば、「宇宙」を「そら」と読む場合、宇宙という文字であることは読者には分かりません。これを、どうやって知らせるかは、検討中です。同じ語形の読み方、図や表などテキスト形式になじまない部分の取り扱い、数式や化学式の読み方など、まだまだ解決しなくてはならない課題が多くあります。特に、こうした課題が混在する教科書をどのようにTTSエンジンを使って読むのかという大きな課題があります。
もう一つみなさんが気にする部分で、法律的課題があります。TTSによる音声化の権利と、音声化したときの同一性保持の考え方です。
データ生成に関して言えば、視覚障害者のためにデータ生成する行為は、著作権法37条3項で守られています。法43条4号は、翻案や翻訳するときの法律ですが、障害者のために行う行為は、問題ありません。しかし、TTSによる音声化の恩恵が障害者だけはなく、健常者も含めて行われる場合があると、著作者の翻案権および同一性保持権に関するものが問題になるため、できるだけ契約上で明記した方がいいと思います。
TTSデータ(テキスト)の読み上げに関しては、私的領域において行われる限りは、何ら権利侵害を惹起しません。ただし、公衆の利用に供される場合は、営利を目的としない公益的な利用であることが明らかである場合を除き、個別具体的にその可否を検討する必要があります。
○実証実験での被験者の声
「ルビは解説を織り交ぜてほしい。」、「通常は点字での読書が主ですが、本の冊数が多いときはTTSで簡素化できるのはありがたい。」、「物語の種類によって、読み手の声を選択できるとありがたい。」など、いろんな要望が出ました。全てを満足することは難しいため、最大公約数的にできることから、ガイドラインに入れるように心がけました。
●オープン型電子出版について
京セラ丸善システムインテグレーション 名和輝明
DRMの著作権保護機能と、ビューワーや使い勝手にあたるUIの技術開発・実証実験を担当しました。音声読み上げ以外の利用者に関わる部分となります。
さまざまなサービスの乱立と独自DRM等で、利用者が好みの読み上げソフトを利用できない、デバイスを変更した際にコンテンツを移行できない、アプリ・デバイスごとにUIの操作方法が違う・文字拡大の機能やサイズにばらつきがあるといった、利用者の使い勝手を下げている課題が既に出始めています。これは、端末やビューワー、配信サービス、DRM保護機能などを単独の1社が提供する、垂直統合型サービスが多いために発生しています。
私たちが目指したものは、現状の垂直統合型による電子出版流通ではなく、水平分業型による電子出版流通です。
垂直統合型では、iPadで買った本はiPadだけ、GALAPAGOSは、GALAPAGOSで提供されている本だけしか読めない状況になっています。利用者からみると、端末を2台持たなければならない、端末によって使えないサービスが出てきます。一方、水平分業型では利用者が好みの一つの端末で多くのサービスを利用できるようになり、結果、より多くの本を読めるようになります。
その水平分業型ビジネスモデル実現のための機能実装と検証、利便性の高いアクセシブルなUI機能の実装と検証、文字や画面拡大に関するアクセシブルな機能の実装と検証を行いました。
仕様案の構造ですが、一つ目のユニバーサル・コンテンツ・コンテナ・フォーマット(UCCF)仕様案は、二つ目のオープン型電子出版DRM仕様案と三つ目のオープン型電子出版UI仕様案と連携して利用するためのパッケージ化に関する仕様です。四つ目として、文字拡大機能の仕様案を別途作成しました。
実証実験は、今後普及が見込まれるものを優先し、端末はAndroid、ファイルフォーマットはEPUBで行いました。
電子出版に関するファイルは、PDF・EPUB・XMDF等さまざまありますが、ファイルだけがある場合には中身が分からず、ビューワーでファイルを開いて見ないといけないという問題があります。UCCFという新しいコンテナ型のフォーマットを定義し、その中にメタデータを持たせて、外から中身がわかる仕様を解決案として提案しました。
UIの仕様については、市場に流通しているアプリケーションを調べ、比較した中で最大公約数の機能としてそれぞれの特長を吸収し、アクセシブルなUIの提言を行っています。
DRM仕様案は、一般的なDRMと似たような機能を実装しています。コピープロテクトやデバイス管理という部分は、現存の電子書籍や音楽などのDRMとほぼ同じです。電子出版向けの機能としては、テキストコピーを許すかどうかや、紙に出力して読みたい場合・プリントオンデマンドビジネス向けの印刷制限の機能も持たせています。
文字拡大機能の仕様案についてですが、実装案と実寸でどのぐらいのサイズにするかを導き出すために実証実験を行いました。高齢者の視力調査から、視力0.4の人が読みやすい文字サイズを提供することで、70歳前後の高齢者80%以上に読みやすくなると考えていましたが、実際に実験を行ったところ、もっと大きくしなければならないという結果を得ました。よって、文字サイズとしては、ひらがな2.9mm、漢字3mm、英字2.3mm、ルビ1.1mm以上を推奨しています。
最後に、アクセシビリティのマーケットを作る上で、今後必要となるのが、アクセシビリティを考慮してご購入いただくようなストア機能です。こちらも今後検討していく必要があると思います。
今回作った仕様案をもとに、さまざまな業界関係者のみなさまと打ち合わせをした上でより良いものを作り上げていきたいと思います。
●画像データからのテキスト抽出技術について
富士通研究所 堀田悦伸
読書障碍者にとって音声や点字を用いて読むことのできる電子出版物には、雑誌やコミックが少ないという課題があります。一方で、過去のデータは編集の課程で入れたテキストデータが消失しているケースがあり、読み上げや検索に支障が出ます。これらを踏まえて、ニーズの高い雑誌データを主なターゲットとして、現行の技術でどれだけテキストが取り出せるのか実験を行いました。
過去の出版データで、画像しか残ってない場合もあります。PDFが残っている場合もあります。画像データが一番難しいので、画像を対象とした場合とPDFを対象にした場合の二通りでテキストの抽出精度を比較しました。
○画像からのテキスト抽出の方法と課題
方法は、PDFを200dpiの画像に変換してOCR技術を適用しました。
評価の尺度としては、正しく抽出できた文字の割合である再現率と、抽出された文字のうちで正しい文字の割合である適合率です。適合率は、背景画像から文字らしい部分を抽出してしまい、100文字のところ200文字抽出してしまった場合50%となります。
実験の結果、再現率が85%、適合率が93%となりました。
画像からのテキスト抽出の課題として、文字認識の失敗があります。デザインされた文字などは、文字として取り出すのに失敗します。もう一つが、レイアウト解析の失敗で、先頭の一文字を大きくする場合がありますが、先頭の文字の影響を受けて、複数の列を一列として取り出してしまいます。文章中の一部が、斜めに書かれている場合は、文字列を取り出しにくくなります。複雑な背景の上にレイアウトされた文字は、抽出に失敗します。文字のない領域からの誤検出というのは、文字は書かれていないものの、背景中の文字らしく見える部分を文字として認識してしまい適合率が下がります。
○PDFからのテキスト抽出の方法と課題
PDFからの抽出方法には、PDF解析を行います。PDF解析というのは文字コードが残っている部分はそのまま文字コードを抜き出し、「社外秘」などアウトラインフォントで文字の輪郭データだけ残っている部分は画像化して文字認識を行います。また画像データが入っている部分も文字認識をかけてテキストを取り出します。
こちらは、再現率が97%で、適合率も97%と高い精度がでています。
PDFからのテキスト抽出の課題として、文字そのものは取り出せますが、読み順と描画順が異なるという課題があります。文字コードと図形で表現された文字が混在すると、文字並び順が変わります。また、ルビが振られている場合、(漢字)-(ルビ)-(漢字)-(ルビ)の並びとなるため、単語としての検索ができなくなります。太字の場合には同じ文字を少しずらして二回書くことで太字にしているためテキストが二重に出るという問題があります。地図上に書かれた文字については、どの文字を取り出すのか、どういう順番にするのか、といった課題があります。また、見た目には全く見えないが、画像の下にテキストが隠されているという非表示テキストの課題もあります。
ガイドライン案として、画像のみから成るPDFに対しては、図や写真に含まれる文字をどの程度読んで検索対象にするかを事前に決める必要があります。
OCRの適用に対して、再現率と適合率のどちらを重視するかという問題があります。再現率を重視するのは、たくさん抽出して検索しやすくするという効果があります。読み上げを考えると、文字として誤検出したゴミ文字が少なくなるように適合率を重視しないと聞いていて文章が分からなくなります。
一般的なPDFに対する課題としては、目視できない文字を読み上げや検索対象にするかどうかや、修正履歴やコメントなどがPDFに添付されている場合にそれらを読み上げるかどうか決める必要があります。ルビがある場合に、現在は文字単位についていますが、文字単位の読み上げでいいのか、単語単位の読み上げでいいのかも決める必要があります。
○テキスト抽出に適したデータ
現在の雑誌編集にあまり影響を与えない特性としては、できる限りテキストデータを残してもらう、雑誌上で見えていないデータはできるだけ削除してもらう、タイトルや見出しといったタグをできるだけ付与する、などの必要があります。
PDFの場合は、テキストが残っていても読み順が分からないというのが一番の課題なので、読み順の付与が必要になります。
過去のデータを読む為には、下記の機能を持つツールが必要だと考えます。
・見た目のレイアウトに基づき、一行の文字並びを正しく判定する。
・見た目のレイアウトに基づき、段落の並び順を正しく判定する。
・図で表記された文字、文字コードが混在する場合に見た目の読み順通りにそれらを正しく判定する。
・見た目のレイアウトに基づき、二重テキストを回避する。
・属性を表すタグを付与する。
実証実験により、画像・PDFデータのそれぞれについて、テキスト抽出による課題を抽出し、ガイドライン案として要件定義と必要な機能の検討を実施いたしました。
【講演終わり】
※本セミナーで取り上げている報告書・仕様案・ガイドラインはこちらからご覧頂けます。
https://aebs.or.jp/itc/itc01.html