サイト共通メニューへジャンプ
会員向けメニューへジャンプ
画像データからのテキスト情報抽出ガイドライン
画像データからのテキスト情報抽出ガイドラインは、制作プロセスの中で新たな負担を最小限にしながらアクセシブルな電子出版物を制作するための実施項目を定めたものです。
目的 | 制作プロセスの中で新たな負担を最小限にしながらアクセシブルな電子出版物を制作するための実施項目を規定する |
---|---|
利用対象者 | 出版社、印刷会社等 |
内容 | テキスト抽出に適した画像データの仕様、およびテキスト抽出のために必要な機能を定めた |
以下に、画像データからのテキスト情報抽出ガイドラインの一部抜粋を示します。
区分 | 内容(一部抜粋) |
---|---|
テキスト抽出に適した画像データの規定 | 【雑誌等のレイアウトに対し、影響がない特性】 ① 可能な限り、テキストデータを残す。 ② 雑誌上見えない文字については、削除する。 ③ 「タイトル」「見出し」「ページ」「図」「表」「テキストブロック」「箇条書き」などの属性を表すタグを付与する。 ④ タグ全体について、その読み順(Reading Order)を付与する。 |
【雑誌等のレイアウトに対し、影響がある特性】 ① 1行の中での文字サイズは同じ。 ② 文字の並び(行 or 列)の方向は水平もしくは垂直。 ③ 文字の背景は単色で、かつ文字色と背景色の濃度差が大きい。 ④ 文字の並びの中に図形が混在しない。 ⑤ 特殊な文字(矢印記号、「①」など)や外字が使用されていない。 ⑥ 文字フォントはゴシック、明朝などの一般的に使用頻度の高いフォント。 ⑦ 文書のレイアウトが単純(=図、写真、テキストブロックが入り組んでいない)。 ⑧ 文字同士が隣接している。(=文字列として抽出しやすい) |
|
画像データからのテキスト抽出に必要な機能の規定 | ① 見た目のレイアウトに基づき、1行の文字並びを正しく判定する。 ② 見た目のレイアウトに基づき、段落の並び順を正しく判定する。 ③ 図で表記された文字、文字コードが混在する場合に、見た目の読み順どおりにそれらを正しく判定する。 ④ 見た目のレイアウトに基づき、2重テキストを回避する。 ⑤ 「タイトル」「見出し」「ページ」「図」「表」「テキストブロック」「箇条書き」などの属性を表すタグを付与する。 |