DTP駆け込み寺
  1. [14078] PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/28 14:13
    1. [14089] Re: PDFファイル数字のテキストが選択&抽出できない 流星光輝 2012/05/29 14:06
      1. [14092] Re^2: PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/29 15:52
        1. [14094] Re^3: PDFファイル数字のテキストが選択&抽出できない 流星光輝 2012/05/29 16:58
          1. [14112] Re^4: PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/30 14:10

[ 返信 ]

PDFファイル数字のテキストが選択&抽出できない

はじめまして、軽印刷のDTPオペレーターをしています。
InDesignのひな形を作成して、毎年同じような仕事をしているのに、
書き出したPDFデータのテキストを選択すると、数字のところどころが抽出できないことがあり、
原因究明&解決したいと思っています。

OS:Windows XP SP3を使用。
Adobe InDesign CS2Jで作成した書籍の原稿を書き出し(高品質印刷)でPDFにします。
合成フォントを使用しています。
半角欧文のみTimes New Roman Reguler、それ以外はMS明朝
もしくは半角欧文・半角数字ともTimes New Roman Reguler、それ以外はMS明朝

お客様にはPDFで校正したり、最終データとして納品したりしています。
過去の同じ書籍のデータからテキストを抽出する作業をされたところ、数字の一部が抽出できないことが分かり指摘を受けました。
同じ書籍のデータなのに、号によっては問題ないファイルもあり謎です。

色々試してみて、PostScriptに問題があるようです。
PDFをAdobe Acrobat 7.0 Proで開いてもう一度PDFにプリント(フォントはすべて埋め込み)すると、今度は選択できなかったフォントのみ選択でき、あとは■などに文字化けします。

eps形式に書き出してからAcrobat DistillerでPDFをもう一度作成しても同じ結果です。

良い方法がありましたら教えていただきたいと思います。

[14078] RKG (2012/05/28 Mon 14:13) mail

[ 返信 ]


Re: PDFファイル数字のテキストが選択&抽出できない

> Adobe InDesign CS2Jで作成した書籍の原稿を書き出し(高品質印刷)でPDFにします。
InDesignから直接PDFにしているのですね。

> 合成フォントを使用しています。
> 半角欧文のみTimes New Roman Reguler、それ以外はMS明朝
> もしくは半角欧文・半角数字ともTimes New Roman Reguler、それ以外はMS明朝

Times New Roman Regulerの半角数字が抜き出せない?
MS明朝の半角数字が抜き出せる?
でしょうか?

AcrobatでPDFを開いて検索した際に、
数字の部分は検索でヒットしますか?
ヒットすれば、抽出しても問題ないはずです。
ヒットしなければ、対象のテキストをコピーしてみてください。
中黒のような表示の文字が抽出される場合は、
もしかすると、CIDFontType2・CIDFontType0が
関係しているのではないかと推測されます。
外してたらすみません。

[14089] 流星光輝 (2012/05/29 Tue 14:06) web

[ 返信 ]


Re^2: PDFファイル数字のテキストが選択&抽出できない

早速のお返事ありがとうございます。
読み返すと少々わかりにくい文章だったかもと反省しています。

> InDesignから直接PDFにしているのですね。
はい、そうです。

> Times New Roman Regulerの半角数字が抜き出せない?
そうです。

> MS明朝の半角数字が抜き出せる?
> でしょうか?
ええっと、合成フォントを外してってことですよね。
駄目だったInDesignファイルを全てMS明朝に換えて検証してみました。大丈夫でした。

> AcrobatでPDFを開いて検索した際に、
> 数字の部分は検索でヒットしますか?
ヒットしません。
それで、お客様の方でも校正時にヒットしないことを懸念されているのだと思います。

> ヒットしなければ、対象のテキストをコピーしてみてください。
ありがとうございます。この辺りの説明が実は抜けていました。
一回目のPDFファイル@を全選択してテキストをコピペをした際に抽出されなかった英数は、半角スペースとなります。(この時選択できているように見えている数字もペーストすると半角スペースになっていたりします。)
そして、もう一度PDFをPDFに書き出したファイルAを全選択してテキストにコピペすると、先ほど半角スペースになってしまっていた英数がちゃんとテキストで現れ、それ以外の部分が■になってしまいます。
Aを全選択している時は、画面上で全部選択できてます。
そして検索にもヒットしているように思われます。

> 中黒のような表示の文字が抽出される場合は、
> もしかすると、CIDFontType2・CIDFontType0が
> 関係しているのではないかと推測されます。

中黒ではないような気がするのですが、CIDFontType2・CIDFontType0ですか?初めて聞く言葉です。
勉強不足ですみません。

因みにInDesignCS34を持っている方に同じファイルを渡してPDF書き出ししていただいたところ大丈夫でした。
よくわかりませんね。。

[14092] RKG (2012/05/29 Tue 15:52) mail

[ 返信 ]


Re^3: PDFファイル数字のテキストが選択&抽出できない

> > MS明朝の半角数字が抜き出せる?
> > でしょうか?
> ええっと、合成フォントを外してってことですよね。
> 駄目だったInDesignファイルを全てMS明朝に換えて検証してみました。大丈夫でした。
対象を欧文書体のTrueTypeFontから和文書体のTrueTypeFontへ
変更したら抽出されるということですよね。

> > AcrobatでPDFを開いて検索した際に、
> > 数字の部分は検索でヒットしますか?
> ヒットしません。
> それで、お客様の方でも校正時にヒットしないことを懸念されているのだと思います。

ちなみにですが、
Times New Roman Regulerというのが気になったので、
「Times New Roman PS MT / Roman」を使用して、
当方でCS2(4.0.5最新版)から直接書き出したPDFからコピーしてみましたが、
特に問題なく、半角数字が抜き出せました。
WindowsXPにバンドルされているフォントでしょうか?
TrueTypeじゃないのかな?

> > ヒットしなければ、対象のテキストをコピーしてみてください。
> ありがとうございます。この辺りの説明が実は抜けていました。
> 一回目のPDFファイル@を全選択してテキストをコピペをした際に抽出されなかった英数は、半角スペースとなります。(この時選択できているように見えている数字もペーストすると半角スペースになっていたりします。)
> そして、もう一度PDFをPDFに書き出したファイルAを全選択してテキストにコピペすると、先ほど半角スペースになってしまっていた英数がちゃんとテキストで現れ、それ以外の部分が■になってしまいます。
> Aを全選択している時は、画面上で全部選択できてます。
> そして検索にもヒットしているように思われます。
>
> > 中黒のような表示の文字が抽出される場合は、
> > もしかすると、CIDFontType2・CIDFontType0が
> > 関係しているのではないかと推測されます。
>
> 中黒ではないような気がするのですが、CIDFontType2・CIDFontType0ですか?初めて聞く言葉です。
> 勉強不足ですみません。

もう一度PDF化する手順でPS(EPS)を経由させると、
フォントの埋め込み状態は変更されます。
EPSにしてもダメというのは字形だけ埋め込まれて、
元の文字情報は欠落してしまうことがあります。

> 因みにInDesignCS34を持っている方に同じファイルを渡してPDF書き出ししていただいたところ大丈夫でした。
> よくわかりませんね。。

念のため、InDesignCS2とCS3とCS4では、
書き出しで使用される「Adobe PDF Library」のバージョンが
異なるため、書き出されるPDFのフォントの埋め込みが変わります。

[14094] 流星光輝 (2012/05/29 Tue 16:58) web

[ 返信 ]


Re^4: PDFファイル数字のテキストが選択&抽出できない

迅速なお返事ありがとうございます。

> ちなみにですが、
> Times New Roman Regulerというのが気になったので、
> 「Times New Roman PS MT / Roman」を使用して、
> 当方でCS2(4.0.5最新版)から直接書き出したPDFからコピーしてみましたが、
> 特に問題なく、半角数字が抜き出せました。
> WindowsXPにバンドルされているフォントでしょうか?
> TrueTypeじゃないのかな?

ウチの会社のOSには「Times New Roman PS MT / Roman」というフォントは入っていませんでしたが、Times New Roman RegulerだけのファイルBを作ってみても、そのInDesignのファイル自体にMS明朝&Timesの合成フォントが設定されているせいか、抽出できない部分が出ました。
そのファイルBから合成フォントの設定を完全に抜きさって、もう一度試してみると本文は大丈夫でした。

ということで、合成フォントに問題があると断定できる気がしてきました。
しかも、MS明朝が駄目?
リュウミンとTimesの合成フォントで作成している原稿は大丈夫なので。

> もう一度PDF化する手順でPS(EPS)を経由させると、
> フォントの埋め込み状態は変更されます。
> EPSにしてもダメというのは字形だけ埋め込まれて、
> 元の文字情報は欠落してしまうことがあります。

そうなんですか。勉強になります。
それで、昨日実は少し解決しました。

問題のInDesignを一度epsに書き出して、Acrobat DistillerでPDFをx-1aで作成し、つなげると大丈夫でした。
少し面倒ですが、問題ない限りこのやり方でしばらくやっていこうかと思います。

> 念のため、InDesignCS2とCS3とCS4では、
> 書き出しで使用される「Adobe PDF Library」のバージョンが
> 異なるため、書き出されるPDFのフォントの埋め込みが変わります。

そうなんですね。
いずれ新しいAdobeの購入も視野にいれて現状でがんばっていきます。
どうもありがとうございました。

[14112] RKG (2012/05/30 Wed 14:10) mail