サイト共通メニューへジャンプ
会員向けメニューへジャンプ
News Letter Vol.006「電子出版アクセシビリティ・シンポジウム」
第二部 アクセシビリティ研究中間発表
・電流協特別委員会 研究部会発表
デジタルデータ研究部会
2012年2月13日 13:00-16:45
如水会館 スターホール
発表者:
富士通研究所
堀田悦伸
研究部会の目的は、電子出版のアクセシビリティやユーザビリティを向上させるテクノロジーに注目すると共に、ビジネスモデルとの両輪で研究を行うことです。
内容としては、過去の膨大な出版資産や雑誌などの出版コンテンツをいかにデジタル化して行けるかです。デジタルデータ化されたコンテンツをどのように活用して行けるか、出版以外の文化的な資料や地域資料など「知のアーカイブ」をどう実現するか、というかなり広いスコープをもって進めております。
第一回の内容は、東洋大学の事例紹介と電気通信普及財団研究助成、立命館大学IRISプロジェクト、佐賀県武雄市『図書館デジタル化推進協議会』、電子書籍評価総括表についてです。
議論としては、視覚障害者30万人、65歳以上の高齢者は3000万人、肢体不自由者も考慮に入れようという話をしてます。
佐賀県武雄市では、iPadを活用した電子図書館サービスの実証実験を開始しています。
障碍者向けの読み上げ用テキストデータは、現在12社から提供されていますが、ボランティアベースのため多くの課題があります。このままでは広がらないので、ビジネスに繋げた上で広げていこうと考えています。米国では、アクセシビリティが普及していて、ほとんどがPDFとタグ付きのテキストです。Amazonは、電子書籍ベンダーOverDrive社と提携して、全米11,000以上の図書館でKindleでの電子書籍の貸し出しサービスを行っています。(http://ebooks.mcls.org)
第二回では、図書館での電子書籍化に関して、米国で立ち上がっているデジタル図書館「 HathiTrust(ハーティトラスト)」の紹介がありました。これは、Google Book Searchプロジェクトに参加している米国の主要大学によるデジタル化資料の共同デジタルリポジトリになります。これまでに電子書籍化された本の数は、約531万冊で約35億ページになります。
AmazonのKindleでは、読み上げの種類が6種類あり、米国では読み上げも含めて電子書籍の良さを出そうと考慮されています。
図書館での電子書籍化では、OPAC(書名検索)からディスカバリ・インタフェース(全文検索)へ移ってきています。
今後予定している部会では、第3回は「アクセシビリティに関する事例紹介」を行い、障碍者のPC・インターネットの利用シーンや携帯を活用とした支援、 PDFのテキスト化にはどのような利点が視覚障碍者にあるかという内容を予定しています。第4回は、「オーディオブックの事例紹介」を予定しています。
PDFのテキスト化に関する一考察として、電子書籍を作るには、まず紙からOCRを掛けてテキスト化する課題と、PDFからテキスト化する課題の2つがあります。PDFには画像とテキストが混在しており、スキャンだけではTTS化できないので、読み上げには文字の並びや段落情報を付与する必要があります。
電子書籍では高齢者、視覚障碍者向けの読上げ機能への期待が非常に高いという現状があります。一方で、過去の膨大な出版データがまだ電子書籍に未対応という課題があります。その理由はそれらの出版データがAdobe IndesignやQuarkで作成されたPDF形式で所有されているためです。PDFデータは、その編集の過程で文字コードなどが失われているので、テキスト化が容易ではなく、読み上げに対応した電子書籍化はまだできていません。
解決策の一つとして、現状のPDF文書を入力として、読み順を付与してTTS用データとして電子書籍を作るという流れがあると思います。
PDFデータには段落情報が付与されていないので、読み上げには段落を付与する作業が必要です。昨年度には、「画像データからのテキスト抽出」という内容でこの部分の課題分析に取り組んでいます。PDFをPDF解析ツールに入力すれば、中間データとしてテキストデータを出力せずに、電子書籍データを直接出力する技術の可能性を今後検証していきたいと思っております。
【講演終わり】