目下、幸田露伴の小説「天うつ浪」を初版本に近い形で再現すべく、入力しています。Kindleで国立国会図書館の原本写真収録を閲覧可能ですが、これは落丁があったり、不鮮明で解読不可能の箇所がありますので、是に加えて、入手できる岩波文庫版(しかし字が小さすぎて読みにくいし初版本は二分冊だが岩波版は三分冊)を参考に、不明箇所を補いつつ、(自分で鮮明な印刷・製本をするべく)こつこつと入力しています。が『第二』に入つてから御神籤が出て參りまして、このコーディングがうまく出來ません。岩波版からスキャンして、このpdf fileを読み込む方法をとろうかとも思いましたが、可能であれば、uplatexで直接書き込みたいと思い、藤田眞作氏の『階梯・縦組編』『入門・縦横文書術』などを参考にアレコレ試すものの、プアな技術のせいでうまくいきません。
そこで、私の環境(本文TeXの構造)と、問題の『御神籤』の内容をお示ししますので、どなたか、この御神籤部分のcording を教えて下さいませんか?
小生は、技術なし、あるのは「こつこつ忍耐だけ」なので、よろしくお願い致します。添付fileは、4箇です。
「御神籤」を挿入したい場所は添付フアイルの末尾です。
> 「こつこつ忍耐だけ」
であれば、
「picture環境を導入して、全部座標を指定して文字を置いていく」
という方針がいいでしょう。スマートではなく、大変な手間がかかりますが、とにかく実現可能で、望むだけの精度で元の出力を再現できます。
前の段落。 \begin{quote}%←ここはcenterでもflushleftでも好きなように \setlength{\unitlength}{1zw} %※以下"縦・横"の用語は実際の出力の方に合わせる \begin{picture}(30,8)%縦30zw・横8zw分の領域 \put(0,0){\framebox(30,8){}}% 補助用の枠 % 左上に「い」 \put(0,0){い} % 上から2zw・左から1zwの位置に「ろ」 \put(2,1){ろ} % 複数文字も指定できる(縦組になる) \put(2,2){はにほへと} % 中身を複雑(ルビ付)にもできる \put(10,3){\huge \ruby{漢字}{かん|じ}} % 横組の文字列を出力 \put(4,5){\Large \pbox{例示}} % \ruleで描いた線を配置する \put(5.8,3.6){\rule{0.8pt}{2.8zw}} \end{picture} \end{quote} 後の段落。
※picture環境の解説はネットを探せばそれなりに出てきます。ただし例によって「縦組では横と縦が入れ替わる」ことに注意(説明の「横」と「縦」を入れ替えて読む)が必要です。
お神籤部分
試行錯誤で,綺麗ではありませんが,次の様な方法ではダメでしょうか。
\begin{tabular}{c}
\,凶\,番\,七\,第\\[2mm]
\hline
\end{tabular}
\begin{minipage}{10mm}
\begin{tabular}{@{\ }p{36mm}}
\ruby{登舟}{ふねに|のぼりて} \ruby{待便風}{びんぷう|を|まてば}\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 舟にのりて行かんとす}\\{\tiny ればおひてが無い}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}月色暗朦朧\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 見れば空もわるくして}\\{\tiny 月もくらきぞ}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}欲 香輪去\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 車にのりておもうとこ}\\{\tiny ろへゆかんとすれば}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}高山千萬里\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny つづける山を恐ろしく}\\{\tiny 高くしてそれも叶わぬ}
\end{tabular}}\\
\end{minipage}\\
試行錯誤で,綺麗ではありませんが,次の様な方法ではダメでしょうか。
\begin{tabular}{c}
\,凶\,番\,七\,第\\[2mm]
\hline
\end{tabular}
\begin{minipage}{10mm}
\begin{tabular}{@{\ }p{36mm}}
\ruby{登舟}{ふねに|のぼりて} \ruby{待便風}{びんぷう|を|まてば}\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 舟にのりて行かんとす}\\{\tiny ればおひてが無い}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}月色暗朦朧\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 見れば空もわるくして}\\{\tiny 月もくらきぞ}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}欲 香輪去\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny 車にのりておもうとこ}\\{\tiny ろへゆかんとすれば}
\end{tabular}}\vspace{-4mm}\\
\begin{tabular}{l}高山千萬里\end{tabular}{\begin{tabular}{l}
\vspace{-5mm}
{\tiny つづける山を恐ろしく}\\{\tiny 高くしてそれも叶わぬ}
\end{tabular}}\\
\end{minipage}\\
別解答案もありますが、藤田さんの「縦組・横組パッケージファイル 」で公開されている「sfkanbun.sty」(*1) と CTAN で配布されている gckanbun.sty の蓋通りの実装を試みてみました。
添付ファイルを参考にしてください。
(*1) http://xymtex.com/fujitas2/texlatex/tategumi/sfkanbun.sty
1) sfkanbun.sty
「舟」と「登」の間に表示される「レ」点の表示位置が気に食わないのですが、
全角スペースを多用して位置合わせを行なっています。
2) gckanbun.sty
「レ」点などの表示位置はやや空きすぎの感がありますが、
これは、全体の位置合わせのため、
3段目(?)の読み(?)が一文字につき4つのひらがなに対応するようにしたため
間延びしてしまったように感じます。
追伸:「\ruby[g]{水野}{みづの}」とされていますが「づ」ではなく「ず」だと思うので
「\ruby[g]{水野}{みずの}」では?
添付ファイルを参考にしてください。
(*1) http://xymtex.com/fujitas2/texlatex/tategumi/sfkanbun.sty
1) sfkanbun.sty
「舟」と「登」の間に表示される「レ」点の表示位置が気に食わないのですが、
全角スペースを多用して位置合わせを行なっています。
2) gckanbun.sty
「レ」点などの表示位置はやや空きすぎの感がありますが、
これは、全体の位置合わせのため、
3段目(?)の読み(?)が一文字につき4つのひらがなに対応するようにしたため
間延びしてしまったように感じます。
追伸:「\ruby[g]{水野}{みづの}」とされていますが「づ」ではなく「ず」だと思うので
「\ruby[g]{水野}{みずの}」では?
さまざまな方法が考えられるのですね。Z.R.さま、鈴木さま、和田さま、早速にご提案いただき、まことに有り難うございます。
私は、藤田眞作さんの書籍が手許にあるものですから、そこから解決方法があるのではないかと捜しておりました。そこで、sfkanbun.styを利用する案が、この際もっとも希望に近い方法となったようです。
① 凶番七第 の下に underline を入れる方法はどうしたらよいのでしょうか。undeline.sty, udline.sty, jundline.sty いずれも、私の利用方法が間違つているのかうまくいきません。
② 「\ruby[g]{水野}{みづの}」の件は、初版本にしたがったものです。現代仮名遣いでは「みずの」となりますが。
私は、藤田眞作さんの書籍が手許にあるものですから、そこから解決方法があるのではないかと捜しておりました。そこで、sfkanbun.styを利用する案が、この際もっとも希望に近い方法となったようです。
① 凶番七第 の下に underline を入れる方法はどうしたらよいのでしょうか。undeline.sty, udline.sty, jundline.sty いずれも、私の利用方法が間違つているのかうまくいきません。
② 「\ruby[g]{水野}{みづの}」の件は、初版本にしたがったものです。現代仮名遣いでは「みずの」となりますが。
返り点の「レ」があまりいい位置表示できていないので、
「レ」の後ろに空白をいれ、「レ」をちょっと押し上げてみました。
sfkanbun.sty を見ると \reten を使う方法もあるようですが、
平べったい「レ」になってしまうので上記の代替案にしました。
添付したファイルは、誤入力の訂正や、読みやすさを重視して若干の修正を行いました。
> ① 凶番七第 の下に ...
ちょっと長すぎる感がありますが
\begin{tblr}{colspec={Q[c] Q[l,t] Q[l,b]}, stretch=0.5}
を
\begin{tblr}{colspec={Q[c] | Q[l,t] Q[l,b]}, stretch=0.5}
のようにします。
>② 「\ruby[g]{水野}{みづの}」...
初版本に従ったとのこと、了解しました。なので「みくじ」と「おみくじ」があるのですね。
「レ」の後ろに空白をいれ、「レ」をちょっと押し上げてみました。
sfkanbun.sty を見ると \reten を使う方法もあるようですが、
平べったい「レ」になってしまうので上記の代替案にしました。
添付したファイルは、誤入力の訂正や、読みやすさを重視して若干の修正を行いました。
> ① 凶番七第 の下に ...
ちょっと長すぎる感がありますが
\begin{tblr}{colspec={Q[c] Q[l,t] Q[l,b]}, stretch=0.5}
を
\begin{tblr}{colspec={Q[c] | Q[l,t] Q[l,b]}, stretch=0.5}
のようにします。
>② 「\ruby[g]{水野}{みづの}」...
初版本に従ったとのこと、了解しました。なので「みくじ」と「おみくじ」があるのですね。
レ点の位置、よくなりましたね。
書割りの中心線が、やや右にズレているので、すこし修正をくわえてみました。しかしこうすると、文字が小さくなりすぎて却つて改悪になったかしら。一應添付します。
書割りの中心線が、やや右にズレているので、すこし修正をくわえてみました。しかしこうすると、文字が小さくなりすぎて却つて改悪になったかしら。一應添付します。
>書割りの中心線が、やや右にズレているので...
旧 ... \begin{tblr}{colspec={Q[c] | Q[l,t] Q[l,b]}, stretch=0.5}
試行錯誤していた時のものが残ってしまっていたようです。
「l,t」 と「l,b」の「t」「b」が影響して右づれになっていると思いますので除去しました。
また以下のように書き換えられていたので
&
\hskip.25zw
\let\warisizw=\small
\twarigaki{\noindent
舟にのりて行かんとすればおひてが無い
}
colspec のパラメータに
1) \hskip .25zw の代わりに ダミー用の 「l」を追加
一応、おみくじ2.pdf を参考にしました
2) 1行を適当な文字数で折り返すよう「Q[m,7zw]」を追加
(\small を使う時は 「Q[m,9zw]」)
ここでの幅は \normalsize でなので見た目と違うのがきいらないのですが
3) 本文の記述は以下のような感じに書き換えた
&& \scriptsize{\noindent 舟にのりて行かんとすればおひてが無い }\\
以上の変更を加えた colspec のパラメータは以下の通り
改 ... \begin{tblr}{colspec={Q[c] | Q[l] l Q[m,7zw]}, stretch=0.5} %% scriptsize 用
\begin{tblr}{colspec={Q[c] | Q[l] l Q[m,9zw]}, stretch=0.5} %% small 用
一応、scriptsize と small で実装したものを添付し直しておきます。
PS
私の環境では、
lua が「no field package.preload['socket.http'」と言ってエラーになってしまうので
パッケージを入れれば良いのですが、チョチョイのチョイでできなかったので
「天うつ浪第二.tex」ではチェックしていないことをお断りしておきます。
パッケージを入れれば良いのだが、チョチョイのチョイでできないので
旧 ... \begin{tblr}{colspec={Q[c] | Q[l,t] Q[l,b]}, stretch=0.5}
試行錯誤していた時のものが残ってしまっていたようです。
「l,t」 と「l,b」の「t」「b」が影響して右づれになっていると思いますので除去しました。
また以下のように書き換えられていたので
&
\hskip.25zw
\let\warisizw=\small
\twarigaki{\noindent
舟にのりて行かんとすればおひてが無い
}
colspec のパラメータに
1) \hskip .25zw の代わりに ダミー用の 「l」を追加
一応、おみくじ2.pdf を参考にしました
2) 1行を適当な文字数で折り返すよう「Q[m,7zw]」を追加
(\small を使う時は 「Q[m,9zw]」)
ここでの幅は \normalsize でなので見た目と違うのがきいらないのですが
3) 本文の記述は以下のような感じに書き換えた
&& \scriptsize{\noindent 舟にのりて行かんとすればおひてが無い }\\
以上の変更を加えた colspec のパラメータは以下の通り
改 ... \begin{tblr}{colspec={Q[c] | Q[l] l Q[m,7zw]}, stretch=0.5} %% scriptsize 用
\begin{tblr}{colspec={Q[c] | Q[l] l Q[m,9zw]}, stretch=0.5} %% small 用
一応、scriptsize と small で実装したものを添付し直しておきます。
PS
私の環境では、
lua が「no field package.preload['socket.http'」と言ってエラーになってしまうので
パッケージを入れれば良いのですが、チョチョイのチョイでできなかったので
「天うつ浪第二.tex」ではチェックしていないことをお断りしておきます。
パッケージを入れれば良いのだが、チョチョイのチョイでできないので
今回投稿いただいた皆様、ありがとうございます。美しく出來上がりました。仕上がりを一応報告爲るために添付ファイルをごらんください。お世話様でした。今後も、よろしくアドバイスお願いいたします。
自分で楽しむために、小説や詩、それから古典中国文学(漢詩)を、ボチボチ入力し出來上がつた pdf を家庭用プリンターで印刷し、自分で製本して楽しんでいます。81歳になりますので、これらの作品は狭小なわが家を圧迫し、將來は、そういった趣味もない家族にゴミとして処分されるのは自明と、危惧しています。好い作品だが、文字が小さくて読みにくいもの、譬えば岩波からでていた「中国詩人選集」から6冊ほど作成しました。露伴作品は文体が大好きなので、15作品くらい手掛けました。「天うつ浪」は未完の作品ですが、露伴作品の「リズム」「文体」が好きで総ルビは手間ですが、慣れない旧字旧カナに悲鳴をあげながら、楽しんでいます。青空文庫には此の作品は未収録です。キンドルには、国会図書館の写真収録したものが公開されていますが、数ページの落丁があり、不鮮明な文字も多く、そこで自作しようと思つた次第です。同好の方がいらつしやれば、作品を交換して校正もラク二なると思いますが。
ご参考に、国立国会図書館デジタルコレクションにあるのを見つけました。すごい世の中になったものです。
これにも落丁があるのでしょうか。
幸田露伴 著『天うつ浪』第1巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887083 (参照 2023-10-11)
幸田露伴 著『天うつ浪』第2巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887084 (参照 2023-10-11)
幸田露伴 著『天うつ浪』第3巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887085 (参照 2023-10-11)
これにも落丁があるのでしょうか。
幸田露伴 著『天うつ浪』第1巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887083 (参照 2023-10-11)
幸田露伴 著『天うつ浪』第2巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887084 (参照 2023-10-11)
幸田露伴 著『天うつ浪』第3巻,春陽堂,明39-40. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/887085 (参照 2023-10-11)
国立国会図書館デジタルコレクションの第2巻、見てみましたが、コマ番号9と11(12-13ページ)が重複しているようでしたが欠損は見つけられませんでした。
AmazonにはKindle Unlimitedで無料で読めるもの https://www.amazon.co.jp/dp/B015DJF6FG があるんですね。中身は上とまったく同じで、やはり重複がありました。
これらは確かに読みづらいので、mr2hさんの入力はたいへん貴重なものだと思います。このサイトあるいはGitHubなどでLaTeXソースを公開していただければありがたいと思う方が大勢おられるのではないかと考えます。
AmazonにはKindle Unlimitedで無料で読めるもの https://www.amazon.co.jp/dp/B015DJF6FG があるんですね。中身は上とまったく同じで、やはり重複がありました。
これらは確かに読みづらいので、mr2hさんの入力はたいへん貴重なものだと思います。このサイトあるいはGitHubなどでLaTeXソースを公開していただければありがたいと思う方が大勢おられるのではないかと考えます。
奥村先生、私も『美文書』の愛読者です。改訂第2版だけ欠いていますが、他はすべて持つています。『改訂第9版』はいつ出るのでしようか? お待ちしています。
さて、『天うつ浪第二』は、落丁と申しましたのは、私の間違いで、仰る重複と申すべきでした。ページ數で申しますと、……8, 9, 12, 13, 10, 11,12, 13, 14, 15……となっていて、8, 9,に続く 12, 13,ページが『重複』していました。私はこのkindle版写真初版の写真収録をもとに入力していたので、 9ページの次が12ページとなっていたので、短絡的に 10, 11ページが落丁と「早とちり」し、 10, 11ページに相当する箇所のみ、岩波文庫版に基づいて入力し、その後再びkindle版に戻つて入力したのです。冷静に写真収録版を検証すれば、この間違いはなかったのに、と反省しています。また『第一』の方も念のため検証したところ、重複は勿論のこと落丁もありませんでした。ただ、当時は活版でページ數も組んでいたようで、……219, 220ページ……となる筈の 220が 120とページ數が組まれていましたが、このページの内容はまさしく220ページの内容となっており、問題はありませんでした。目下『第二』の「其二十五」までの入力を終えたところですが、この先「ゆっくり」ペースですすめていきますが、この初版写真収録のページ數と、そのページの内容には、充分留意したいと思います。(従つて検証は入力が全部完了した後となります。)
source file も公開したらというお話を伺い、「何年経つても」初心者の私は「よそさま」におみせできる code などなく、氣羞づかしいかぎりですが、旧漢字の変換など大變手間のかかることなので、公開により、興味をお持ちの方のお役に立てばと考へ、とりあへず、入力完了した『第一』について、 *.tex および *.pdf file を公開してもいいかな、と考へて居ます。奥村先生、こういう形でよろしいでしょうか?殘りは、勿論入力完了後となります。これにより、諸先輩がたから、改善案などや、誤入力のご指摘が得られることをのぞみます。
さて、『天うつ浪第二』は、落丁と申しましたのは、私の間違いで、仰る重複と申すべきでした。ページ數で申しますと、……8, 9, 12, 13, 10, 11,12, 13, 14, 15……となっていて、8, 9,に続く 12, 13,ページが『重複』していました。私はこのkindle版写真初版の写真収録をもとに入力していたので、 9ページの次が12ページとなっていたので、短絡的に 10, 11ページが落丁と「早とちり」し、 10, 11ページに相当する箇所のみ、岩波文庫版に基づいて入力し、その後再びkindle版に戻つて入力したのです。冷静に写真収録版を検証すれば、この間違いはなかったのに、と反省しています。また『第一』の方も念のため検証したところ、重複は勿論のこと落丁もありませんでした。ただ、当時は活版でページ數も組んでいたようで、……219, 220ページ……となる筈の 220が 120とページ數が組まれていましたが、このページの内容はまさしく220ページの内容となっており、問題はありませんでした。目下『第二』の「其二十五」までの入力を終えたところですが、この先「ゆっくり」ペースですすめていきますが、この初版写真収録のページ數と、そのページの内容には、充分留意したいと思います。(従つて検証は入力が全部完了した後となります。)
source file も公開したらというお話を伺い、「何年経つても」初心者の私は「よそさま」におみせできる code などなく、氣羞づかしいかぎりですが、旧漢字の変換など大變手間のかかることなので、公開により、興味をお持ちの方のお役に立てばと考へ、とりあへず、入力完了した『第一』について、 *.tex および *.pdf file を公開してもいいかな、と考へて居ます。奥村先生、こういう形でよろしいでしょうか?殘りは、勿論入力完了後となります。これにより、諸先輩がたから、改善案などや、誤入力のご指摘が得られることをのぞみます。
公開は全く考へて居ませんでしたが、奥村先生の勸めもあり、思いきつて、取り敢へず「第一」のみ公開致します。誤字・脱字のご指摘と TeX 上の技術的なご指摘、改善点などをお寄せ戴ければ幸甚です。
青空文庫のマニュアル https://www.aozora.gr.jp/gaiji_chuki/sonota.html では#二の字点、#濁点付き二の字点となっているものですね。
濁点は「た〻゙た〻゙」のように U+3099(combining katakana-hiragana voiced sound mark)を付ければよさそうですが、そうしたところで upLaTeX/LuaLaTeX では正しく組んでくれませんね。強引にするなら「た〻\hspace{-1.6zw}゛\hspace{0.6zw}た〻\hspace{-1.6zw}゛\hspace{0.6zw}」みたいにすればいいんでしょうか。
小書きについては『天うつ浪』をちょっと探したのですが例が見つけられませんでした。\scalebox を使って強引に縮小するしかないんでしょうか。
濁点は「た〻゙た〻゙」のように U+3099(combining katakana-hiragana voiced sound mark)を付ければよさそうですが、そうしたところで upLaTeX/LuaLaTeX では正しく組んでくれませんね。強引にするなら「た〻\hspace{-1.6zw}゛\hspace{0.6zw}た〻\hspace{-1.6zw}゛\hspace{0.6zw}」みたいにすればいいんでしょうか。
小書きについては『天うつ浪』をちょっと探したのですが例が見つけられませんでした。\scalebox を使って強引に縮小するしかないんでしょうか。
上の補足ですが、\hspace より \kern のほうがよかったですね。
「各〻」の「〻」を小書きで組むかどうかはどっちでもいいみたいですね。おそらく原稿の時点では区別されていないような気もします。
\ninojiten のようなマクロにしておけば、あとでどうにでもできそうです。
\documentclass[tate]{jlreq}
\makeatletter
\def\ninojiten{\@ifnextchar ゛{〻\kern-1.6zw゛\kern0.6zw\@gobble}{〻}}
\makeatother
\begin{document}
各\ninojiten がた
「た\ninojiten ゛た\ninojiten ゛」
\end{document}
(「ゝ」「ゞ」に統一という手もありましたね。)
「各〻」の「〻」を小書きで組むかどうかはどっちでもいいみたいですね。おそらく原稿の時点では区別されていないような気もします。
\ninojiten のようなマクロにしておけば、あとでどうにでもできそうです。
\documentclass[tate]{jlreq}
\makeatletter
\def\ninojiten{\@ifnextchar ゛{〻\kern-1.6zw゛\kern0.6zw\@gobble}{〻}}
\makeatother
\begin{document}
各\ninojiten がた
「た\ninojiten ゛た\ninojiten ゛」
\end{document}
(「ゝ」「ゞ」に統一という手もありましたね。)
どうも、本來のForumの趣旨から外れて、「国語審議会」みたいなテーマになり、濟みません。http://nifongo.style.coocan.jp/odori.html に昭和21(1946)年3月・文部省教科書局調査課国語調査室(原文縦書き・旧字体)が、くりかへし符号の使ひ方〔をどり字法〕(案)なるものを公表していました。
結局、明治の頃はこういった見解を文部省?が示すことなく、定見は存在せず、個人が適当に字を使用していた、と考へられます。
今なら、「かなにつける」ときは『一ツ点』、つまりヽゝゞヾあたりが正解なのでしよう。で、この作品の場合は……難しいところですが、ほんとうはゝゞで統一がいいのかな。
結局、明治の頃はこういった見解を文部省?が示すことなく、定見は存在せず、個人が適当に字を使用していた、と考へられます。
今なら、「かなにつける」ときは『一ツ点』、つまりヽゝゞヾあたりが正解なのでしよう。で、この作品の場合は……難しいところですが、ほんとうはゝゞで統一がいいのかな。
情報を寄せて頂きありがとうございます。
ATOKは使つていまして、文字パレットの単漢字情報もしっています。この方法ですとおよそ6割くらいの旧字は変換動作により得られると思います。しかし変換できない場合が多いです。譬えば今回の「天うつ浪」のばあい、本文最初のページでいえば、「遠」は旧字は「にてんしんによう」ですが変換できず、「鉛」もグリフが違うものです。「令」も出來なかつたと思います。次のページでは新字でいう「船」「汽」「情」などが、正しく表現出來なかつたと思います。
「文語モード」も利用していますが、これもまた、不完全です。要求するレベルが、まったく異なるかんじです。しかし、「旧字・旧仮名ふう」に表現することは可能ですから、ふつうはこれも有用でしょう。でも、初版当時に忠実に再現したいばあいは、とても不充分だと思います。
そこで、 Bxglyphwiki がとても有効です。一つの グリフ について10から30くらいの関聯するグリフをそのutf-8コードで、提案してきますので、glyphwiki サイトから、utf-8コードを指定してdownloadすると、最終的にはpdfで「一文字ずつ」得られます。でも、とても面倒です。
一冊の書籍で、150から200回くらいは、この操作をしないと終わらないのです。1回とは、おなじグリフが20回でてきても、1回と数えてです。とても面倒です。私のような20年も前に定年を迎へた老人でなければ、やっていられない、とおもいます。
そこで、Input Method,あるいはIMEの設計自体で、旧字・旧仮名専用のものができないかナ、という「希望」ないし「ぼやき」なんです。旧字は美しいとおもいます。何故戦後大きく変えて仕舞つたんだろう、今では台灣でしか殘つていないようです。此もどこまで忠実に康熙字典を殘しているでしよう。台灣が中国に一体化されれば、いはゆる旧字は消滅するでしょう。すると、古典をそのまま読める人は一部の学者を除いて居なくなるでしよう。嗚呼!という次第です。乱文失礼。
ATOKは使つていまして、文字パレットの単漢字情報もしっています。この方法ですとおよそ6割くらいの旧字は変換動作により得られると思います。しかし変換できない場合が多いです。譬えば今回の「天うつ浪」のばあい、本文最初のページでいえば、「遠」は旧字は「にてんしんによう」ですが変換できず、「鉛」もグリフが違うものです。「令」も出來なかつたと思います。次のページでは新字でいう「船」「汽」「情」などが、正しく表現出來なかつたと思います。
「文語モード」も利用していますが、これもまた、不完全です。要求するレベルが、まったく異なるかんじです。しかし、「旧字・旧仮名ふう」に表現することは可能ですから、ふつうはこれも有用でしょう。でも、初版当時に忠実に再現したいばあいは、とても不充分だと思います。
そこで、 Bxglyphwiki がとても有効です。一つの グリフ について10から30くらいの関聯するグリフをそのutf-8コードで、提案してきますので、glyphwiki サイトから、utf-8コードを指定してdownloadすると、最終的にはpdfで「一文字ずつ」得られます。でも、とても面倒です。
一冊の書籍で、150から200回くらいは、この操作をしないと終わらないのです。1回とは、おなじグリフが20回でてきても、1回と数えてです。とても面倒です。私のような20年も前に定年を迎へた老人でなければ、やっていられない、とおもいます。
そこで、Input Method,あるいはIMEの設計自体で、旧字・旧仮名専用のものができないかナ、という「希望」ないし「ぼやき」なんです。旧字は美しいとおもいます。何故戦後大きく変えて仕舞つたんだろう、今では台灣でしか殘つていないようです。此もどこまで忠実に康熙字典を殘しているでしよう。台灣が中国に一体化されれば、いはゆる旧字は消滅するでしょう。すると、古典をそのまま読める人は一部の学者を除いて居なくなるでしよう。嗚呼!という次第です。乱文失礼。
当方の環境(MacのTeX Live 2023)でコンパイルできるか試してみました。
http://xymtex.com/fujitas2/texlatex/ から sfkanbun.sty jdkintou.sty を入手
https://ctan.org/pkg/indent から indent.sty を入手
https://github.com/zr-tex8r/BXglyphwiki をインストール
これでできるようです。ただしフォントが原ノ味になってしまいましたので、
源ノ明朝にするには kanji-config-updmap-sys で sourcehan に設定すれば
いいのだろうと思います(もともと同じフォントですが)。
http://xymtex.com/fujitas2/texlatex/ から sfkanbun.sty jdkintou.sty を入手
https://ctan.org/pkg/indent から indent.sty を入手
https://github.com/zr-tex8r/BXglyphwiki をインストール
これでできるようです。ただしフォントが原ノ味になってしまいましたので、
源ノ明朝にするには kanji-config-updmap-sys で sourcehan に設定すれば
いいのだろうと思います(もともと同じフォントですが)。
t tkさん、ご免なさい。私は「勘違い」していました。私はKindle経由で国立国会図書館の閲覧をしたのですが、t tkさんは、直接(Kindleを通さないで)国会図書館を閲覧すれば、pdfあるいはjpgなどのfileでdownloadできるよと、教えて下さつたのですね。大變失礼致しました。私の「早とちりでした。」 ただ、殘念ながら私の力では、それらのfileから、text file を抽出できる能力がありませんので、それを和田さんが第三巻で試そうとされているのでしょうね。最近の投稿の流れから『何か変だぞ。自分はなにか勘違いしているのかも知れない』、と読み返してみたら、やっとこの点に気づいた、という「お粗末さ」でした。反省!!。
私の投稿は、ただの情報提供ですので(既知の情報かも知れませんが)、特になにも気になさらなくて大丈夫です。
Kindleはおそらく国会図書館のデータから作っているでしょうから、「數ページにわたる落丁」という点が気になりました。
Kindleのデータ作成のときに落ちた可能性もあります。その後、重複のみと分かりました。
国会図書館のデータに問題があったとするならば、国税を払っている立場からしっかりしてほしいというところですが、どうもそうではないとのことで安心しました。
国会図書館のもとのpdfやjpgの画像は見やすくないし、テキストデータでの入手は困難のようです。OCRのソフトが公開されているのは初めて知りました。
テキスト入力やTeXでの組版は、大いに価値があることと思います。
もとの投稿の目的から脱線気味の(もしくは発展的な)話題も、そういう方面に興味がある人が沢山いらっしゃることの表れだとおもうので、その状況をお楽しみになればよいと思います。
Kindleはおそらく国会図書館のデータから作っているでしょうから、「數ページにわたる落丁」という点が気になりました。
Kindleのデータ作成のときに落ちた可能性もあります。その後、重複のみと分かりました。
国会図書館のデータに問題があったとするならば、国税を払っている立場からしっかりしてほしいというところですが、どうもそうではないとのことで安心しました。
国会図書館のもとのpdfやjpgの画像は見やすくないし、テキストデータでの入手は困難のようです。OCRのソフトが公開されているのは初めて知りました。
テキスト入力やTeXでの組版は、大いに価値があることと思います。
もとの投稿の目的から脱線気味の(もしくは発展的な)話題も、そういう方面に興味がある人が沢山いらっしゃることの表れだとおもうので、その状況をお楽しみになればよいと思います。
経過報告
日中は、お仕事やらボランティア活動の影響で作業できないことと ...
NDLOCR は NVIDIA の GPU に依存しているようで環境構築さらに難航中。
なので、まだしばらく時間がかかります。
最悪スマフォの OCR アプリでページ数分撮影&テキスト化も検討しているので
環境構築している間に iPad/iPhone の OCR アプリを試したけど
活字品質&ルビの影響で文字認識はかなり悪いです。
その他 tesseract で NDLOCR で利用している文字認識情報が利用できないかとか、
最悪は、朗読したものを mp3 で録音しpython の wisper で音声認識...
も考えているけど、ルビや同じ発音の単語の補正などで
経験値からですが、1時間の mp3 ファイルだと10時間くらいはかかりそうです
日中は、お仕事やらボランティア活動の影響で作業できないことと ...
NDLOCR は NVIDIA の GPU に依存しているようで環境構築さらに難航中。
なので、まだしばらく時間がかかります。
最悪スマフォの OCR アプリでページ数分撮影&テキスト化も検討しているので
環境構築している間に iPad/iPhone の OCR アプリを試したけど
活字品質&ルビの影響で文字認識はかなり悪いです。
その他 tesseract で NDLOCR で利用している文字認識情報が利用できないかとか、
最悪は、朗読したものを mp3 で録音しpython の wisper で音声認識...
も考えているけど、ルビや同じ発音の単語の補正などで
経験値からですが、1時間の mp3 ファイルだと10時間くらいはかかりそうです