LuaLaTeXにおけるPDFのテキストデータ

LuaLaTeXにおけるPDFのテキストデータ

- Ando Ryoya の投稿
返信数: 6
いつもお世話になっております.

LuaLaTeXにおいて,newtxパッケージを使うと,PDFのテキストデータが不正(?)になるようで,PDFからコピーすると数式モードに配置した文字が文字化けしてしまいます.
例えば以下の文書;

---------------------------------------------
\documentclass{ltjsarticle}
\usepackage{newtxtext,newtxmath}
\begin{document}
$A$ is a ring.
\end{document}
---------------------------------------------

を,TeXLive2021のlualatexでコンパイルしたPDFファイルから文字をコピーすると,「퐴 is a ring.」のようになります.
PDFViewerの不具合かと思いましたが,SumatraPDF v.3.3.3とGoogle Chromeで挙動が一致しますので,考えにくいと判断しました.

解決策などご存じの方いらっしゃいましたらよろしくお願いいたします.
Ando Ryoya への返信

Re: LuaLaTeXにおけるPDFのテキストデータ

- 奥村 晴彦 の投稿
うちの環境(MacのPreview)では
(Aのイタリック体) is a ring.
となりました(Aのイタリック体はここに貼れなかった)。
奥村 晴彦 への返信

Re: LuaLaTeXにおけるPDFのテキストデータ

- 和田 勇 の投稿
同じく Mac ですが、手持ちのブラウザなどで試してみました。

Preview , Safari は問題ありませんでした。

Google Chrome, Fire fox, Opera は質問者さんと同じようになりました。

Adove Reader 表示は問題ないのですが、コピペバッファーに入れて取り出すと(Aのイタリック体) の部分が何か表示しようとしていますが見えませんでした。

余興で rga (ripgrep all) で any character サーチして ターミナルに結果を表示させてみましたが問題はありませんでした。
奥村 晴彦 への返信

Re: LuaLaTeXにおけるPDFのテキストデータ

- Ando Ryoya の投稿
ありがとうございます.

おかしいなと思い,いまtlmgrでアップデートを行ってから試してみましたが,結果は同じでした.
logファイルを含め,添付させていただきます.

(よくわかっていないのですが,コマンドラインではlualatexを叩いているのにログには「This is LuaHBTeX」とあるのは正常でしょうか?)

帰宅すれば別のマシンがありますので,そちらでも試してみようかと.

奥村 晴彦 への返信

Re: LuaLaTeXにおけるPDFのテキストデータ

- Z. R. の投稿

既定設定のnewtxmathのAは最終的には「NewTXMI.pdfの0x16」にマップされて、これのグリフ名が「u1D434」なので、テキストデータはU+1D434“𝐴”となります。

なので、ビューアがテキスト中の「BMP外の文字」を正しく扱えるかに依存するのでしょう。ちなみに“퐴”はU+D434であり、上位16ビット部分が落ちた恰好になっています。

<
Z. R. への返信

Re: LuaLaTeXにおけるPDFのテキストデータ

- Ando Ryoya の投稿
ありがとうございます.

PDFViewerの問題とのことで,納得いたしました.
upLaTeX+dvipdfmxで作成したPDFではコピーがうまくいく
(例えば先の例でドキュメントクラスを
「\documentclass[autodetect-engine,dvi=dvipdfmx,ja=standard]{bxjsarticle}」
に変更してそれぞれでコンパイルしました)
ので,できればLuaLaTeXでも同様の結果を得たいと思っておりましたが,小手先でどうにかできる問題ではない(エンジンの実装レベル?)ということなんでしょうか.