Xpdf内蔵のコマンドで日本語エラー

Xpdf内蔵のコマンドで日本語エラー

- 浮亭 夢介 の投稿
返信数: 6

w32tex/bin下にはXpdf内蔵の下記のコマンドとrc があります.
pdffonts,pdfimages,pdfinfo,pdftoppm,pdftops,pdftotext,pdfdetach,xpdfrc
また,xpdfrcが参照する d:/Resource も適切に配置されていると思います.
次のようなサンプルで実験してみました.
---------
%% foo.tex (utf-8)
\documentclass{jsarticle}
\begin{document}
あいうえお ABCDEF
\end{document}
---------
操作:
a) platex -kanji=utf8 foo.tex
b) dvipdfmx -V 4 foo.dvi
(Xpdf は PDF version 1.4 以下を扱うようです.
defaultでは version 1.5 が生成されます)
c) pdftotext foo.dvi out.txt
以下のようなエラーが出ます.

Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'F1'
Error (153): No font in show/space

これ以外のコマンドでも日本語が含まれると
Error: Unknown character collection 'Adobe-Japan1'
となります.

対処方法がわかりません.よろしくお願いします.

浮亭 夢介 への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- Akira Kakuto の投稿
 > Xpdf は PDF version 1.4 以下を扱うようです

default の PDF 1.5 で大丈夫です。
日本語がある場合は、

pdftotext -enc EUC-JP foo.pdf foo.txt

として下さい。実験によると、他の encoding の
場合は、結果がおかしくなります。
-enc EUC-JP の場合はうまく行きます。

他の encoding が必要なときは、nkf で結果を
変換して下さい。

Akira Kakuto への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- 浮亭 夢介 の投稿

ソースコードをEUCにして
a)platex -kanji=euc foo.tex
b)dvipdfmx foo.dvi
c)pdftotext -enc EUC-JP foo.pdf foo.txt
次のようになりました.

Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
Error: Couldn't get text encoding

浮亭 夢介 への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- Akira Kakuto の投稿
 > ソースコードをEUCにして
ソースコードを EUC にする必要はありません。
設定ができていないようです。
私の場合は、以下のようになっていますので
参考にして下さい。

--------------

私の bin ディレクトリの xpdfrc の中身は

# xpdfrc (for pdftotext xpdf-WIN32)
#
cidToUnicode Adobe-Japan1 C:/usr/gs/xpdfresource/Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP C:/usr/gs/xpdfresource/ISO-2022-JP.unicodeMap
unicodeMap EUC-JP C:/usr/gs/xpdfresource/EUC-JP.unicodeMap
unicodeMap Shift-JIS C:/usr/gs/xpdfresource/Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 C:/usr/gs/xpdfresource/CMap
toUnicodeDir C:/usr/gs/xpdfresource/CMap

で、c:/usr/gs/xpdfresourse
は以下のようになっています:

xpdfresource/Adobe-Japan1.cidToUnicode
 /EUC-JP.unicodeMap
 /ISO-2022-JP.unicodeMap
 /README.xpdf
 /Shift-JIS.unicodeMap
 /add-to-xpdfrc
xpdfresource/CMap/78-EUC-H
 /78-EUC-V
 /78-H
 /78-RKSJ-H
 /78-RKSJ-V
 /78-V
 /78ms-RKSJ-H
 /78ms-RKSJ-V
 /83pv-RKSJ-H
 /90ms-RKSJ-H
 /90ms-RKSJ-UCS2
 /90ms-RKSJ-V
 /90msp-RKSJ-H
 /90msp-RKSJ-V
 /90pv-RKSJ-H
 /90pv-RKSJ-UCS2
 /90pv-RKSJ-UCS2C
 /90pv-RKSJ-V
 /Add-H
 /Add-RKSJ-H
 /Add-RKSJ-V
 /Add-V
 /Adobe-Japan1-0
 /Adobe-Japan1-1
 /Adobe-Japan1-2
 /Adobe-Japan1-3
 /Adobe-Japan1-4
 /Adobe-Japan1-UCS2
 /EUC-H
 /EUC-V
 /Ext-H
 /Ext-RKSJ-H
 /Ext-RKSJ-V
 /Ext-V
 /H
 /Hankaku
 /Hiragana
 /Katakana
 /NWP-H
 /NWP-V
 /RKSJ-H
 /RKSJ-V
 /Roman
 /UniJIS-UCS2-H
 /UniJIS-UCS2-HW-H
 /UniJIS-UCS2-HW-V
 /UniJIS-UCS2-V
 /UniJIS-UTF8-H
 /UniJIS-UTF8-V
 /UniJISPro-UCS2-HW-V
 /UniJISPro-UCS2-V
 /UniJISPro-UTF8-V
 /V
 /WP-Symbol

Akira Kakuto への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- 浮亭 夢介 の投稿

ご教示ありがとうございます.

これから,腰を据えて実験してみます.

浮亭 夢介 への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- Akira Kakuto の投稿
ご存じと思いますが、設定は簡単で、bin ディレクトリに
あるファイル xpdfrc でトップディレクトリ
を決めれば (私の場合は c:/usr/gs/xpdfresource)、 そこへ行って
pdftotext-supp.zip を展開するだけです:
cd /d c:/usr/gs/xpdfresource
unzip pdftotext-supp.zip

pdftotext-supp.zip は
$TEXMFDIST/doc/pdftex/base

にあります。

Akira Kakuto への返信

Re: Xpdf内蔵のコマンドで日本語エラー

- 浮亭 夢介 の投稿

よく調べてみたら,以前に導入した gnuwin32 中にも同様の実行ファイルが
あり,混在していたため削除したところ正常に動作しました.
お手数かけて申し訳ありませんでした.