PDFからテキストを抽出する際に直接InDesignにコピペしたら文章内のパーレンや"部""財"などその他もろもろ一貫性のない文字たちがENスペースに化けてしまいました。
テキストエディタに貼ってみても同じ結果になったのでPDF側の問題のようです。
PDFをイラレで開くと普通にテキストとして拾えまして、アウトラインだったり特殊なフォントを使っているわけでもなかったです。
一応文字は拾えているので急を要してはいませんが、こんな事象に遭遇したことがある方はいらっしゃいますか?
[20558] ロクガツジュウイチロウ (2021/06/11 Fri 14:47)
PDFについては、目に見える文字的なものと、裏で持つ文字コードがイコールとは限りません。
アウトライン化されていれば当然テキストとしては取れませんし、テキスト的な情報を持っていても生成方法やアプリケーション次第では異なるカスタムコードになることはあります。
CID系フォントについてはPDF内にCIDtoUnicodeのテーブルを適切に持つことなども必要になってきます。
よってその点をまずは作成元やアプリケーション仕様と確認することが必要です。
[20559] あさうす (2021/06/14 Mon 11:58)
お返事が遅くなりました。コメントありがとうございます。
実は表題の現象がここ数日、異なるマシン、異なるPDF(先方支給や自分で書き出したものなど)で多発したため、もう少し検証してみました。
まずAcrobat以外のアプリはどうかと思いプレビューで開いてみたところ正常にコピーできました。
Acrobatでも編集の状態にしてコピーすると正常でした。
今まで⌘Cでコピーしていたので元々ある機能なのかわからないですが、右クリックするとコピーとは別に添付の「書式設定を維持してコピー」というものがありこちらを選択した際も正常にコピーすることができました。ただし1度のコピーに少し時間がかかります。
今のAcrobatのバージョンは21.5.20048でOSはMojaveとCatalinaを使っています。
原因解明には至りませんが一旦作業は平常に行えるようになったので報告いたします。
[20561] ロクガツジュウイチロウ (2021/06/15 Tue 12:52)
>こんな事象に遭遇したことが
ありますね。僕もその時イラレで無理やり開いた気がします。
単にunicodeが違う感じじゃなかったなぁ
だいぶ前の記憶なので定かじゃないけど
テキスト自体拾えたからまぁいいやってあまり掘らなかった
[20560] ショウブシ (2021/06/14 Mon 18:09)
コメントありがとうございます。
> ありますね。僕もその時イラレで無理やり開いた気がします。
こちらもイラレではテキスト拾えたのですが細切れになってしまうのは大量の抽出には不向きで困っていました。
一旦、あさうすさんの方に返信した方法での解決となりました。
アップデートのバグとかですかね?
[20562] ロクガツジュウイチロウ (2021/06/15 Tue 12:56)