DTP駆け込み寺

[ 返信 ]

Re^3: PDFファイル数字のテキストが選択&抽出できない

> > MS明朝の半角数字が抜き出せる?
> > でしょうか?
> ええっと、合成フォントを外してってことですよね。
> 駄目だったInDesignファイルを全てMS明朝に換えて検証してみました。大丈夫でした。
対象を欧文書体のTrueTypeFontから和文書体のTrueTypeFontへ
変更したら抽出されるということですよね。

> > AcrobatでPDFを開いて検索した際に、
> > 数字の部分は検索でヒットしますか?
> ヒットしません。
> それで、お客様の方でも校正時にヒットしないことを懸念されているのだと思います。

ちなみにですが、
Times New Roman Regulerというのが気になったので、
「Times New Roman PS MT / Roman」を使用して、
当方でCS2(4.0.5最新版)から直接書き出したPDFからコピーしてみましたが、
特に問題なく、半角数字が抜き出せました。
WindowsXPにバンドルされているフォントでしょうか?
TrueTypeじゃないのかな?

> > ヒットしなければ、対象のテキストをコピーしてみてください。
> ありがとうございます。この辺りの説明が実は抜けていました。
> 一回目のPDFファイル@を全選択してテキストをコピペをした際に抽出されなかった英数は、半角スペースとなります。(この時選択できているように見えている数字もペーストすると半角スペースになっていたりします。)
> そして、もう一度PDFをPDFに書き出したファイルAを全選択してテキストにコピペすると、先ほど半角スペースになってしまっていた英数がちゃんとテキストで現れ、それ以外の部分が■になってしまいます。
> Aを全選択している時は、画面上で全部選択できてます。
> そして検索にもヒットしているように思われます。
>
> > 中黒のような表示の文字が抽出される場合は、
> > もしかすると、CIDFontType2・CIDFontType0が
> > 関係しているのではないかと推測されます。
>
> 中黒ではないような気がするのですが、CIDFontType2・CIDFontType0ですか?初めて聞く言葉です。
> 勉強不足ですみません。

もう一度PDF化する手順でPS(EPS)を経由させると、
フォントの埋め込み状態は変更されます。
EPSにしてもダメというのは字形だけ埋め込まれて、
元の文字情報は欠落してしまうことがあります。

> 因みにInDesignCS34を持っている方に同じファイルを渡してPDF書き出ししていただいたところ大丈夫でした。
> よくわかりませんね。。

念のため、InDesignCS2とCS3とCS4では、
書き出しで使用される「Adobe PDF Library」のバージョンが
異なるため、書き出されるPDFのフォントの埋め込みが変わります。

[14094] 流星光輝 (2012/05/29 Tue 16:58) web


残り1件

  1. [14078] PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/28 14:13
    1. [14089] Re: PDFファイル数字のテキストが選択&抽出できない 流星光輝 2012/05/29 14:06
      1. [14092] Re^2: PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/29 15:52
        1. [14094] Re^3: PDFファイル数字のテキストが選択&抽出できない 流星光輝 2012/05/29 16:58
          1. [14112] Re^4: PDFファイル数字のテキストが選択&抽出できない RKG 2012/05/30 14:10