長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
返信数: 79
幸田露伴の長篇未完小説『天うつ浪』につき、その『縦組みupLaTeX』化につき別項で大変お世話になりました。投稿の皆様に御礼申し上げます。投稿のテーマはこの小説にでてくる「御神籤(おみくじ)」を『縦組みupLaTeX』で、どう書いたら美しく初稿のように再現できるでしょうか……という事でしたが、これはお陰様で目的通り達成出來ました。その後、このように長篇小説は公表されている「青空文庫」に収録されているものであれば、text fileでも入手できるので、これを基に『縦組みupLaTeX』化すれば、美しく組版することは、きわめて容易です。私は今までにこの方法で、長篇では漱石『吾輩は猫である』、中編では芥川龍之介や幸田露伴からそれぞれ15編程度を、『讀みやすく、見て美し』くpdfにし、それらをハードカバーの「上製本」にし楽しんできました。ところが露伴の『天うつ浪』のように、「青空文庫」に収録されていないものは、可成りの「骨折り」となりますし、その課程は余り「意味ある骨折り」とはならないのではないか、と考えるようになりました。 ですのでもし『省力化』が図ることが可能であれば、TeX活用の有用な方法となるかもしれない、と思います。 既にこの小説(初版本では三分冊、岩波文庫では二分冊)のうち、「初稿の再現」を目ざす私は、「第一」は『手入力』が完了し、目下「第二」のうち60%位が完了している状態ですので、此の侭時間はかかるものの「第三」まで完了させる積もりです。そしてこの場をお借りして、未熟さ露呈にも拘わらず公開させていただこうと考えます。 一方で、text fileでは入手できないけれども、画像fileとしては、あるいはpdf fileとしてなら入手可能な文献は、もしtext file抽出が可能であれば、TeX化も容易となります。そうすれば、文芸作品のみならず論文などにも応用でき、役に立つのではないかと考えます。投稿にも、OCRからtext file抽出可能な方法につき、ご提案をいただきましたが、私がもともとtexnicianでない上に、80歳超という老齢で、技術対応は不可能と思います。幸いそうした事情をご存じかどうか分かりませんが、和田さんが、tryしようと動き始めるようなので、大いに心強く思つています。 それでは、小説『天うつ浪』の『第一』の完成したものは既に一度公開していますが、此に『柱』をつけ、ノンブルの位置を少し変えたもの(といっても、美文書の指定どおり、に過ぎない)を再公開させていただきます。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
図書館から岩波文庫の方の後編を駆り出してきました。岩波文庫版の初刷りのようです。

春陽堂の初版本と比較してみました。

1) 総ルビではない
2) ところどころ長いルビの時、前後に空白が入っている
    長くても入っていないものもある
3)一行が長い
4) 段落開始部分が字下がりしている
5) 「其XX」の番号は前編後編を通して採番(春陽堂のは巻毎)
6) ところどころ「其XX」の後に「セクション名」のような説明が付与されている
7) 会話文?引用文?の『「』が省略されるなど校正作業が行われている
8) 春陽堂版は 「其四十九」までだが、岩波の方は p-217 から 141 から 156 が追加されている
  讀賣新聞には掲載されたものの「本」化?されなかったものかしら?

今日試したこと
1) 国会図書館の画像イメージを Google Drive で開いてテキスト化してみたけどあまり思わしくない
2) 同じものを iPad iPhone  のファイルアプリで開きテキスト化してみたけどこれもあまり思わしくない
3) 借りてきた岩波文庫の門を Google レンズや iPad iPhone の同類アプリで試みたけど、
 光源の影響か上部の一部を文字として認識できず
 光源や原稿の置き方などの工夫が必要かも?

明日以降は tesseract をコマンドでできるか再挑戦

個人的には同音異義の問題はあるけれど、
最近の若者がスマフォで入り入りなテキストを書いているのを見習って
スマフォなどで音声入力が一番ストレスがないのではと考えています。

字が小さいので目が痛い :-(
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さん、まことに有り難うございました。画像データのテキスト化といっても、なかなか手強いようですね。スマフォでの「読み上げ」による音声入力が最も近道ではないかしら、と和田さんのtry結果を読みながら思いました。いずれの方法でも大幅な編集作業が必要なことは、見えてきましたね。それでもスクラッチで一から入力するよりは『ラク』であれば、意味ある試みだと存じます。岩波文庫版の字が大きく読みやすかつたら、初稿版がノイズ少なく文字も鮮明であつたなら、『なにも苦勞してTeXでPDF化なぞいたしません』。そうでないから意味あいがあるのではと思います。私のような暇でボケかかっている老人に、お忙しい和田さんの貴重な時間を投入させて申し訳ないと思いつつ、誰かのお役に立つこともあろう事を期待して、コツコツ一文字ずつ吟味しながら入力しています。さっぱり生産性は向上しませんが……。でも和田さんのご努力に期待していますよ。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 奥村 晴彦 の投稿
「天うつ浪」、NDLだけじゃなく、こちらでもカラー画像が公開されているんですね:
https://school.nijl.ac.jp/kindai/CKMR/CKMR-00911#1
奥村 晴彦 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
奥村先生、有り難うございます。此方で掲載されているのは、知りませんでした。
此方の方がズット高精細に収録されていますね。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
奥村さんの紹介されていたものはすごいですね。
これは後で試してみますが ... ちょっと朗報

岩波文庫の方を iPad(一眼) や iPhone(三ガン) のカメラアプリで撮影
したものからテキストを取り出すと Google レンズより認識が良いようです。

カメラアプリの中でもテキストは抽出できますが、
内容確認のため画像を取得して、それを ファイルアプリ で開いて
テキスト抽出し、誤認識やルビの補正作業が行えそうです。

mr2h さん今後編の何ページくらいまで進んでいますか?
とりあえずその先を今夜撮影しまくって、
明日の昼休み、ひたすらテキスト抽出とメモ帳貼り付け作業ができたらと思います。

ページ番号まで読み取っているので、画像との付き合わせもできやすいかと考えています。

これが一段落したら半自動化を考えたらなと思います。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さん、あまり進んでいなくて春陽堂の初稿で、第二の『其三十四』の途中、この初稿のページでいうと、107ページまで入力(pdf化)が完了しています。TeXの原稿でいうと、
------------------------------------------------------------------------------------------------------------------------------------------
『アッハヽハヽ、\ruby{甚}{ひど}い\ruby{氣焰}{き|\GWI{u1b001}ん}だナ、\ruby{怪人}{くわい|じん}の\ruby{怪語}{くわい|ご}だ。\ruby{皮肉}{ひ|にく}も\ruby{其}{それ}までになると\ruby{愛嬌}{あい|けう}が\ruby{出}{で}て\ruby{面白}{おも|しろ}い。アヽ\ruby{愉快}{ゆ|くわい}だ\ruby{大笑}{おほ|わら}ひに\ruby{笑}{わら}つたので\ruby{馬鹿}{ば|か}に\ruby{醉}{よ}つた。\ruby{久}{ひさ}しぶりで\ruby{一}{ひと}ッ\ruby{朗吟}{ろう|ぎん}をやるぞ。』

『\ruby{宣}{よ}からう。\ruby{長}{なが}い\ruby{事汝}{こと|きさま}の\ruby{怒鳴}{ど|な}るのも\ruby{聞}{き}かなかつたナア。』
----------------------------------------------------------------------------------------------------------------------------------------------------------
と、云つたところまでです。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さん、『第二』の途中までのpdfをお送りした方が、手つ取り早いのでお送りしますので御覧下さい。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
第2巻 其三十四以降の部分についても同様のOCR処理を行ってみましたので結果を添付いたします。
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
続いてテキストデータ(1つにまとめたもの)

第3巻のもの同様に手動での作業によるミスがあるかもしれません。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿

国会図書館のOCRソフトの話題を持ち出してからあまり時間が取れずなかなか試してみることができずにいましたが、少し時間が取れた上、ある程度の結果を得られましたので報告させていただきます。

私は、ローカルな環境でOCRを試すほどソースコードの扱いに慣れていないのでGoogle Colabですでに構築されているものを利用させていただきました。この構築済みの環境で、公開してくださっている方の解説サイトを参考に実行してみました。

私自身、扱いに慣れていないためよくわからないのですが「IIIF」という一番下の部分まで行き、「IIIFマニフェストファイルのURL」に「https://dl.ndl.go.jp/api/iiif/887085/manifest.json」と入れると上手く行きました。

得られたテキストファイルと認識済みpdfの一部を写真で添付いたしました。

認識率も高く、ルビが混在することもほとんどなく、手で入力するよりも効率は上がるのではないかと思います。

添付 IMG_0015.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋さま、有り難うございます。なにか希望が湧いてきたような感じがします。とはいへ、まだ勉強しないと能く理解できないので、これから、あれこれ試したいと思います。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
せっかくなので第3巻の全てのページで、先ほどの構築されている環境を利用させていただいてOCRを実行してみました。

まずPDFを添付しておきます(改行、誤字訂正等をしておりません。また、139個のテキストファイルを手動で1つのテキストファイルにコピペしたので、二重でコピペしてしまったり、飛ばしてしまったページがあるかもしれません)。
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
誤字訂正の際にページごと(写真ごと)になっている方が使いやすいと思いますので、ページ別のOCRテキストを添付しておきます。
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
7月頃に改修されたロジックはよくなったのでしょうね。
認識度合いがよいので私の出番は今回は不要かな?

mr2hさんへ
とはいえ、春陽堂の初稿で掲載されてなくて岩波文庫のみのものとその巻末の解説を
iPad IPhone のカメラで撮影しテキスト抽出を試みます。


それから髙橋さんのを暫定で総ルビ化するのは割と手早く対応できますので、必要でしたら申しつけてください。
その際、 「公開版幸田露伴『天うつ浪』第一」「 天うつ浪第二改改」を参考にする予定です。

呟き ...

nvidia GPU 搭載マシンを入手するか、Amazon にキャッシュカード番号を教えるかすれば対応できそうだけど・・・
Linux でも対応してるのだから mac でも対応できるようにしたいな

奥村さんが紹介してくれた国文学研究館の精細な画像だと 「notcopy」になっているようでコピペはできないのですが、
iOS の写真アプリで撮影したものからは結構な認識をして手軽にテキストを取り出せます。
Google レンズは文字を認識時点でかなり認識できない箇所があり、今回は使用を断念なのは変わりないです。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋さんの*,txtをもとに、試しに「第二」の『其三十五』を、このsectionだけ組版してみました。たしかに地の文がtext化されたことによる省力効果は大きいです。ただrubyが消えましたので、これを挿入する作業は、かなりのものでした。他方で、OCRの読違い修正箇所は可成り少ないようで、これに要した手間はさほど多くはありませんでした。
そこで、和田さんにお願いしてよければ、「第二」の『其三十八』以降の総ルビ化です。『其三十七』までは、『其三十五』と同様に仕上げるつもりです。『第三』については、text k化を高橋さんに、甘え序でにお願いしようかと考えています。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
総ルビ化作業は、今まで mr2h さんが作業されていた情報が必要です。

先日アップされた第一巻は「其一.tex」から「其四十.tex」はあるのですが、
第二巻のは「天うつ浪第二改改」に含まれている「2-其二十三.tex」のみなので
第二巻の「其一.tex」から今できている「其三十七.tex」までを見せていただけませんか?



そのほか総ルビ化作業を行う上で以下の作業を行います。
- 2文字以上の漢字が、行跨りになっているケースを考慮し、基本的に改行コードを一旦削除します
- これでは一行が長すぎるので、「句読点(含む閉じ鍵かっこ類)」で改行を入れます。
- 今までの第一巻、第二巻の其三十七の ルビ情報から作成した変換テーブルで一気に変換します。
- 余裕があれば 「其XX」単位にファイル化も考えています。
- 以上の作業はスプリプトベースで行いますが、その処理結果のみをお渡しした方が良いですか?
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
今できている「其三十七.tex」-----------とありますが、既に出來て居るのは「其三十五.tex」までです。なのでこれをお送りします。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
ルビ情報抜き出し作業は終わりました。
おおよそ4300種の漢字文字列があり
ルビベースで数えるとおおよそ 5300種。
同じ漢字に複数の読みがあっても良いのですが、
どうみてもおかしな情報がありましたので、
私の作業が終わるまで、添付したファイルを参考にして
今まで入力したものを検討しておいてください。

おかしな例の一部(前のスレッドで話題になっていたものの残骸?)

      1 突立 つゝ|た \ruby{突立}{つゝ|た}
      1 突立 つヽ|た \ruby{突立}{つヽ|た}

      1 響 どよみ \ruby[g]{響}{どよみ}
      3 響 ひび   \ruby{響}{ひび}
      1 響 ひゝ  \ruby{響}{ひゝ}
      5 響 ひゞ  \ruby{響}{ひゞ}
      2 響 ひゞき \ruby{響}{ひゞき}

なお、このように複数の読みがある場合は、
編集時に選べるように縦に並べて出力するよう検討中。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さん、「これから入力する部分」の総ルビ化を爲るためには「今まで入力した部分」のルビの解析が必要だ、とのお考へなのですね。ルビだって、個人差や時代差があるのだ、ということなのですね、まして「同じ作品の巻数の違い」による『ルビの打ち方のバラツキを抑制する』ことが肝要だということなのですね。遅ればせながら「敬服」いたしました。よくも斯様な、面倒な課題につきあつて頂きました。完成を楽しみにしております。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
自分の投稿に、自分で『呟き』です。私は全くの文系人間で、systemの「シ」の字も知らなかつた者です(キーボードを目にするとアレルギー)が、それでも時代の流れで、ワープロを使いたくなり当時流行っていたPC-98で、やっとこ60歳近い身で、ms-dosを始めましたがむずかしかつたですね。とくに マクロ・アセンブラあたりはとてもハードな世界でした。そこで和田さんの今回の『総ルビ化』のところで思い出したのが、『見当外れかもしれませんが』60歳近くで既に腦力(誤字ではありませんぞ)低下ぎみで讀んだので、よくは理解できなかつた次の Termです。「コンパイラ・コンパイラ、構文解析、トークン、……」などなど。もう書名も忘れたし、当然内容理解には程遠い、その程度の「おはなし」なのですが、やはり、見当外れなのでしょうネ。とんだ脱線でしたが、チョッヨつぶやきたかつたもので。失礼!!
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋さま、和田さま、素晴しいテンポで私の望むtext抽出を実現仕て戴き、或は有益なアドヴァイスを頂戴し眞に感謝いたします。早速これを基にして、殘りを実現すべく続行いたします。おかげで、予定より大分早く完成できるのではないかと、悦んでおります。勿論完成の曉には、このForumで、原稿TeXとPDFを公開させていただくつもりです。また和田さまには、作業の途中でまた相談させて戴くこともあるかもしれませんので、その節は宜しくお願い致します。
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋さま、図々しいお願いを仕ても宜しいでしようか?
『第三』つまり「第3巻」の、text化です。sectionごとの細分はしなくて結構です。ベタでいいのですが。
本当に、なんて図々しいお願いだと、思いつつ・・・。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿

第3巻のものはすでに昨日添付しておりますが…

勘違いでしたら実行しなおしますので国会図書館のリンクを教えていただければ実行できます。

takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
一応ですが、もう一度添付しておきます。

こちらではないのでしょうか?
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
今後も製本をされ続けると思いますので見づらいですがOCRの手順を書いておきたいと思います。
添付 IMG_0032.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋様さま
これがあると大變助かります、ありがとうございます、
ただ私(81歳の老齢で)視力が大變おとろえていまして、この画像が殆どよみとれないのです。
おおきく見える方法はあるでしょうか?
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
すみません。配慮が足りておりませんでした。
一枚ずつ添付していきますので、先ほどより大きく見えるかと思います。
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
1枚目

まず、先日私が示したリンクを押してください。
添付 IMG_0022.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
2枚目

そうするとこのようなページになります。そこで右上の「ログイン」ボタンを押してGoogleアカウントでログインしてください。Googleアカウントは無料で簡単に作れます。
添付 IMG_0023.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
3枚目

ログイン後、少し下へスクロールしてください。
添付 IMG_0024.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
4枚目

赤い四角部分を実行(左の再生ボタンのようなボタンを押)してください。
添付 IMG_0025.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
6枚目

5枚目までの操作が完了しましたら、また少し下へスクロールし、赤色の四角で囲んだリンクを押してください。
添付 IMG_0027.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
7枚目

ここから、OCRを実行するものの設定を行います。青色の四角で囲った部分は変更しなくてもよいですが、赤色の四角で囲った部分はOCRを行う書籍に合わせて変更する必要があります。
添付 IMG_0028.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
8枚目

7枚目の赤色の四角で囲った「IIIFマニフェストファイルのURL」の欄に記載するURLについて説明します。まずOCRを行いたいものの国会図書館のページを開きます。そして下へスクロールしていき写真の赤色で囲った部分のリンクをコピーします。
添付 IMG_0029.jpeg
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
9枚目

8枚目での操作でコピーしたものを下の写真のようにペーストしてください。
添付 IMG_0030.jpeg
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- takamasa 23 の投稿
第3巻の全文OCRは添付したものであっていましたか?
takamasa 23 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
第3巻の全文OCRですが、すみません、一つのベタtext-file(section毎にで分割しない)でけっこうですので、出來ましたら再度お願いできるでしようか?
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
高橋様
私の我儘なお願いに応えて戴きまして、眞に感謝いたします。
この内容ならば、お陰様で編集作業に入れます。
有難うございました。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿

色々データが錯綜しているので、私が総ルビ化作業で参考にする情報をまとめておきます。

1) 髙橋さんの OCR 結果

  • 第2巻(其三十四以降)

    • 2023年 10月 29日(日曜日) 23:22 - 髙橋 政晴 の投稿
    • https://okumuralab.org/tex/mod/forum/discuss.php?d=3656#p22751
    • https://okumuralab.org/tex/pluginfile.php/6/mod_forum/attachment/22751/第2巻%E3%80%80其三十四以降(修正なしOCRテキストデータ).txt?forcedownload=1
  • 第3巻

    • 2023年 10月 30日(月曜日) 21:41 - 髙橋 政晴 の投稿
    • https://okumuralab.org/tex/mod/forum/discuss.php?d=3656#p22782
    • https://okumuralab.org/tex/pluginfile.php/6/mod_forum/attachment/22782/第3巻.txt?forcedownload=1

2) mr2h さんの TeX 化済み == 総ルビ化材料

  • 第1巻

    • 2023年 10月 28日(土曜日) 08:53 - mr2h の投稿
    • https://okumuralab.org/tex/mod/forum/discuss.php?d=3656#p22735
    • https://okumuralab.org/tex/pluginfile.php/6/mod_forum/attachment/22735/公開版幸田露伴『天うつ浪』第一.zip?forcedownload=1
  • 第2巻(其三十五まで)

    • 2023年 10月 30日(月曜日) 20:46 - mr2h の投稿
    • https://okumuralab.org/tex/mod/forum/discuss.php?d=3656#p22780
    • https://okumuralab.org/tex/pluginfile.php/6/mod_forum/attachment/22780/天うつ浪第二.zip?forcedownload=1

3) 参考画像イメージ

  • 国立国会図書館デジタルコレクション ... ある程度検索できるので探しやすい

    • 第1巻 https://dl.ndl.go.jp/pid/887083
    • 第2巻 https://dl.ndl.go.jp/pid/887084
    • 第3巻 https://dl.ndl.go.jp/pid/887085
  • 国文学研究資料館 ... 大きな画面で目視で比較チェックの時便利かな

    • 第1巻 https://school.nijl.ac.jp/kindai/CKMR/CKMR-00910#1
    • 第2巻 https://school.nijl.ac.jp/kindai/CKMR/CKMR-00911#1
    • 第3巻 https://school.nijl.ac.jp/kindai/CKMR/CKMR-00912#1
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
現役退いているのでプログラミングがなかなか捗らなくてようやっとお渡しできるものができました。

どんなふうにできたかは添付のファイルをみてくだ区こととして..

全体的には、句読点とそれに続く」または』単位に改行を入れていますが ...
第一巻及び第二巻までの途中までで、同じ漢字に複数のルビを振っている場合は
二つ目以降を改行してタブで字下げしていますので、適宜選択等してください。

初めて出てきた漢字には \ruby{丈夫}{??ルビ??} としていますので
適宜加筆してください。

    \ruby{叔母}{を|ば}
      \ruby{叔母}{お|ば}
    はただ\ruby{堅人}{かた|じん}を\ruby{丈夫}{??ルビ??}に
    \ruby{有}{あ}
      \ruby{有}{\ あ}
      \ruby{有}{も}
      \ruby{有}{ゐ}

ファイル分割はしてありますが、
OCR で解析?した際にうまく処理できなかったもの等がありました。
たとえば第三巻では以下のようなケースがあり、
コメントのように処理しておきました。

    \section*{其十}
    \section*{其十一六} ← これは 其十一 だと思いますが 其十一六  に出力
    \section*{其十二}
    \section*{其十}   ←多分 其十三 だと思いますが 其十 に追記しています。
    \section*{其十四}

PS
今ひとつデバッグしきれなかったのですが、
ところどころ余分な改行が混入しています。
適宜調整してください。

和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
現役退いているのでプログラミングがなかなか捗らなくてようやっとお渡しできるものができました。

どんなふうにできたかは添付のファイルをみてくだくこととして..

全体的には、句読点とそれに続く 」または 』単位に改行を入れていますが ...
第一巻及び第二巻までの途中までで、同じ漢字に複数のルビを振っている場合は
二つ目以降を改行してタブで字下げしていますので、適宜選択等してください。

初めて出てきた漢字には \ruby{丈夫}{??ルビ??} としていますので
適宜加筆してください。

    \ruby{叔母}{を|ば}
      \ruby{叔母}{お|ば}
    はただ\ruby{堅人}{かた|じん}を\ruby{丈夫}{??ルビ??}に
    \ruby{有}{あ}
      \ruby{有}{\ あ}
      \ruby{有}{も}
      \ruby{有}{ゐ}

ファイル分割はしてありますが、
OCR で解析?した際にうまく処理できなかったもの等がありました。
たとえば第三巻では以下のようなケースがあり、
コメントのように処理しておきました。

    \section*{其十}
    \section*{其十一六} ← これは 其十一 だと思いますが 其十一六  に出力
    \section*{其十二}
    \section*{其十}   ←多分 其十三 だと思いますが 其十 に追記しています。
    \section*{其十四}

PS
今ひとつデバッグしきれなかったのですが、
ところどころ余分な改行が混入しています。
適宜調整してください。

和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さん、力作まことにありがとうございます。ただひとつお願いがあります。送られてきたフォルダのフォルダ名(サブフォルダ名も含む)が文字化けして読めないのです。*.texフアイル自体は問題なく読めるのですが……。どのようにしたら読めるようになるのか教えて下さい。因みに変換ツールで、文字コードをutf-8に、改行コードをCRLFに換えても効果なし、でした。このままだと、必要なsection 名(其**)を探すのに、かなりの時間がかかりそうです。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
失礼しました。

前回は zip コマンドで圧縮しましたが
mac の Fiinder で圧縮し直しました。

ついでなので
 nkf --overwrite -Lw で CRLF ファイルに、
 第3巻の「其十一六」は「其十一」と「六」の分離するようにしたので
 「其十一.tex」に直しておきました。

PS
  Windows 環境では試してみてはいませんが
  7zip (コマンド名は 7z) だとうまく対応してくれるように見えます。

  コンテンツ内容をリスト
    7z  l  アーカイブ名.zip
  コンテンツ内容を展開
    7z  x  アーカイブ名.zip
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
7zipもダメでした。前回*.texそのものは大丈夫と書きましたが、フアイル名は、やはり文字化けします。このフアイルを読込むと正常に表示されるのですが。今回より以前には、和田さんから戴く*.zipはすべて問題はありませんでしたが。やはり環境の相違が原因なのかしら。でも以前は正常だったのに。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
mr2h さんに余力があればですが、
今回ルビ情報が付与されなかった漢字ですが、
添付のファイルに空白を区切りに読みを入れていただければ、
今回の処理に反映させることが可能ですので検討してください。

なお、各行の左端の数値は、出現頻度ですので、
複数の場合はそれを参考に複数の読みになるよう複数行で表してください。
 例
                2  可能
   → 2 可能  かのう
     2 可能  できる

和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
「ルビ情報が付与されなかった漢字」については、私も、この小説を読んで、その箇所に出遭つて「へえ、こういう読み方も明治の頃には、或は幸田露伴の場合には、あるんだ!」という状況なので、和田さんの狙いは理解しますが、お役に立ちそうもありません。私は国文学者ではないものですから。つまり、ある「讀み」について『読み方=ルビ』を「ひとつ」知つていたとしても、「他に」どんな読み方があるのかについては知らないのです。

それから、直前の課題であるfolder, subfolderの「文字化け」により読めない問題ですが、其の爲に、この分割文書が『其**』になるのか分りませんので、TeX文書の冒頭部分を読んだうえで、初稿を探し出す・・・という「情けない」事情により折角の和田さんの労作が活用しにくいのです。
以前おこなっていた圧縮方法で、再度送り直していただけないでしょうか?
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
文字化けの件、解決しました。和田さんの言われる方法で、私が持つている12年前の骨董的MaBook ProのFinderで読込んだ後で解凍したものを、Win11に移動したら、読めるようになりました。お騒がせしました。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
Windows 環境でためしてみました。

zip ファイルを Download フォルダーにダウンロードしています。

explora から展開を試みると確かにファイル名の文字化けははっせいしますね。

が 7z で展開してもファイル名の文字化け発生しませんでした。

どこが違うのだろう???
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 奥村 晴彦 の投稿
7-Zipのバージョンの違いかもしれませんね。比較的新しいものならファイル名の文字コード(UTF-8・Shift JIS)を変換してくれると思うのですが。
奥村 晴彦 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
システムコードが 65001 vs 932 の問題かなとおのっていたのですが 7zip のバージョンですか

私は scoop で導入していますので ...

scoop info 7zip


Name : 7zip
Description : A multi-format file archiver with high compression ratios
Version : 22.01 (Update to 23.01 available)
Bucket : main
Website : https://www.7-zip.org
License : LGPL-2.1-or-later
Updated at : 2023/06/27 11:55:54
Updated by : Joost-Wim Boekesteijn
Installed : 22.01
Binaries : 7z.exe | 7zFM.exe | 7zG.exe
Shortcuts : 7-Zip
Notes : Add 7-Zip as a context menu option by running: "\install-context.reg"
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
7zip の件ですが、その後私のWin11でも、installし直した結果、文字化けしないで解凍できましたので、報告致します。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
前半部分へのリプライです。

国文学者でなくともできる作業があります。

現在、我々は国立国会図書館、国文学研究資料館、Kindle などなどデジタルメディアを通して作品を目にすることができます。

おそらく mr2h さんは、髙橋さんが OCR でテキスト化しそれを私が総ルビ化の補助情報を組み込んだものを元に、
上記デジタルメディアと見比べ、
  OCR での誤認識部分の補正
  ルビの補正(選択・修正・加筆)
  〓文字部分を初めとする通常のフォントでは表示できない部分の GWI 化
などなどの校正作業をおこなうものだとおもいます。

ということで、ルビ情報はデジタルメディアで容易に得られるのでは
とかんがえていました。

時間的余裕があれば、この作業を代行できるのですが、
岩波文庫のみ掲載文のテキスト化作業が終わってから
対応できればと考えています。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
和田さんの『総ルビ対応』は、使つていて、とても使いやすいです。まづ周囲の空白が多いので、見やすく入力間違いがすくなくなります。今までは、原稿を見ていてこの空白がないので、一旦目を離し再び作業するときに、原稿の見間違いで数行抜いたり、逆にダブつたりと、間違いやすかつた。ただ、ルビの選択作業が中心となりますので、入力終つた後に、餘計な全角半角の空白文字を混入させていないか、チェック爲る必要があります。たしかに作業性は飛躍的に向上しているのですが、だからといって入力に要する時間が大幅に短縮されたかといへば、さほどでもない感じがします。それだけ『総ルビ』が手間の掛る作業だからでしょう。明治のころの、出版社が活字で組叛した「苦勞」が偲ばれるというものですね。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
私の想定した対応をされているとのこと、少々嬉しいです。

私個人としては、TeX の原稿で一行が異様に長いのはあまり好きではありません。
なので、良く「句点」で改行し、長ければ「読点」で改行を入れるようにしています。
今回はルビ対応部分により長くなりやすいので一律句読点で改行を加えました。
なので「空白」が目立つのだと思います。
diff や git で差分を表示するとき、短いと違いが比較的一目でわかるのではと思います。

さて総ルビ対応で複数選択の場合の私の一番のおすすめは vi エディタですね。
検索パターンを ruby にしておき、「n」で検索し「D」か「dd」で削除できるので。
vscode にはこれに相応するマクロ等があるかもしれませんが。

また、今回 section (其XX)単位に分割しましたが、
もし mr2h さんの活動に賛同される方がいらっしゃれば、git で管理し、
各 section 単位に
 - ルビのチェック
 - OCR での文字誤認識部分の是正
 - mr2h さんにようる校正
みたいなことをやれれば良いかなと思っています。
賛同者がいらっしゃれば git で管理できるよう手配します。
 
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
大變遲くなりましたが、皆様の扶けを借りまして、やっとこ『天うつ浪』第二の一応の入力が出來ましたので、ここに、お約束通り公開致します。正直疲れました。皆様のお目に触れることによつて、更に「間違い」の校正が、ご指摘戴くことによつて可能となれば、嬉しいです。この後の「第三」は来年櫻が楽しめる頃までに出來上がれば、いいな、などと考えています。どうか、この『第二』について、ご指摘を賜りたく、よろしくお願い致します。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
> ... 更に「間違い」の校正 ...

ちらっと拝見させていただきましたが、
旧字/旧かななどで表記の揺れが散見されますので、
国立国会図書館デジタルコレクションや
国文学研究資料館の資料を
可能な限り校正作業を行えればと思います。

とりあえず、
  - 一行が長いので、句読点や \ruby 単位に改行
  - 連続する空行の削除
  - ファイル名が「一」「七」「三」「九」...「四」
   だと作業が面倒なので半角数字を前置して
   順番になるよう rename
など修正作業の差分が明瞭になるよう前処理をしてみました。

どなたか一緒にやっても良いという方がいらっしゃれば
git で共同で校正作業ができる環境を構築・提供も検討します。

PS
大きな活字を所望しているのは mr2h さんだけではないようですね。
先日 2023/11/4 か 5 の天声人語に豊島区立中央図書館での出来事で
視覚障害のある男の子が本を一心に見つめニコニコ云々
というのが紹介されていました。
mr2h さんの活動がそんな人たちに役立てられたらなという思いで
校正作業をしていこうと思います。

和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
一行が長い……のは氣になつていましたが、私としては飽くまで『初稿に忠実に!』を最優先に考へて居ます。漢数字の扱いも同じです。ただ初稿では漢数字にはルビを振つていませんが、ここだけは振るように変更しています。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
あの!、私は「仕上がり」が初稿にできるだけ「忠実」でありたいと願つているので、tex文書そのものは、矢張り行番号が多くて検索するときに便利な方がベターと思います。漢数字の前の半角数字の扱いについても(ちょっと、どのようにすればよいのか分かりませんが、)同様です、最終仕上げが初稿志向という意味です。濟みません、私の「はやとちり」だったようです。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
今回は一巻も 1-xx にするようにしていたので
ファイルリストを作り、手作業で並べ替え、
shell script で行番号情報をもとに nn-1-xx-其xx に
なるように rename 情報を作成して変更しました。
なおついでに 上下巻で通番の岩波文庫版の参照もできるように
さらに三桁の岩波文庫用のも前置しています。

三巻も同様にとご希望なら、perl スクリプトを用意しますが ...
対応は夕方になると思います。

そうそう、pdf 化するとき、一行の長さを春陽堂のと同じになるよう
3文字少なくするとpdf と国会図書館などを参考にする際、利便性が上がると思います。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
もしかして、添付フアイルが有るのでしようか?
ぜひ、拝見したいものです。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
perl でリネームの情報は作成できたのですが、
Windows でテストでファイル名の文字コードの扱いに難航のため
cmd プロンプト用として添付ファイルのバッチスクリプトを提供することにしました。

「公開版幸田露伴『天うつ浪』第一」「公開版幸田露伴『天うつ浪』第二」
の二つのディレクトリがあるところに添付ファイルを置き
コマンドプロンプト を起動して「 renames.bat 」を実行してください。

第三巻の方は今夜帰宅してから投稿する予定です。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
第三巻用のファイル名の漢数字部分の情報から算用数字を前置するように
ファイル名を変更するコマンドバッチスクリプトです。

第三巻用の保存ディレクトリが不明ですのでこちらでは試していないので、
 1) 一旦、第三巻部分を適当なディレクトリにコピーし、 ← ここ重要
 2) 添付の rename-3.bat をそのディレクトリに配置し、
 3) コマンドプロンプトで rename-3.bat を実行してください。

うまくいったら、元のディレクトリにコピーなどしてください。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
有り難うございました。rename-3.batのrenしたあとの名称は、それまでの第一と第二のつけかたと、当然ですが一緒なので、私は手書きで(bat fileによる一括処理でなく)、作業していたのと同一でした。目下は、第三の其五(096-3-05-其五.tex)の入力が終了したところです.
道のりは、遙か先です。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
返信がなかったので、文字コードの問題等があったのではと危惧していました。

こちらは、「\ruby」区切りにして校正の準備はほぼ終了。
ここ二、三日は、どうやって校正作業を行うか検討していましたが、
基本に戻って「読み比べ」で行うことにしました。

というのも第一巻 其一 の鼻から以下の誤植を見つけたので。
  「すだれ」が「直簾」→「垂簾」
  「そうりょう」が「爽涼」→「爽凉」

このやり方なので、こちらも長い道のりになります。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
ハナから、見事な誤字・誤植ですね。この分では如何ほど間違いがでてくるのやら・・・。
正しい入力の自信、全くないです。校正は一苦労どころでは無いですね。和田さんに負担をおかけして申し訳ありません。
あ、それから校正の基となるのは、飽くまでも『初稿版』です。原作者が目を通している筈ですから。岩波版でもなく、現代の漢字用法でもありません。
また、『くりかえし』は、初稿に關係無く『ヽ、ヾ』の2種類に統一することにしました。初稿重視ではありますが、グリフの無い文字が初稿にあるためです。ここだけは例外です。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 若松 久仁光 の投稿
和田 勇様 mr2h様
漢字が大好きなので調べてみました。
諸橋轍次 他共著
『新漢和辞典』(改訂版)大修館書店、1982年4月1日には

「そうりょう」は「爽涼」と書かれています。

追伸
脱線させて申し訳御座いませんが
露伴の「風流仏」には、今は使われない「紀念」(かたみ)などが有り
記念の字に慣れている今日では少々戸惑ってしまう用語も御座います。
また「差別」も。わざわざ呉音の古い正しい発音の「しゃべつ」とルビを
添えたりもしている様です。
(尤も、「風流仏」と言うタイトルなので仏教の用語を意識して書かれている?のかも知れませんが)
「諸の仏菩薩は他心智を以って十方の無量無数の有情の心の差別を智る。」などの経典を意識か?
若松 久仁光 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
難しい問題ですね。因みに「にすい」と「さんずい」の凉の違いは?とググってみましたら、
==========================================================
以前の漢字文化資料館で掲載していた記事です。2008 年以前の古い記事のため、ご留意ください。

Q0169
「凉」と「涼」は、同じ漢字でしょうか? それとも、別の漢字でしょうか?
A

この2つの漢字について漢和辞典を調べてみると、両者は異体字の関係にある、ということで諸書一致しています。つまり、読みも意味も同じである、ということです。一般によくつかわれるのは「さんずい」の方の「涼」ですから、「にすい」の「凉」はその俗字にあたる、という言い方もよくされます。
「さんずい」と「にすい」は、形もよく似ているので、よく混同されます。しかし、意味の上から厳密に考えると、もともとは違う意味のことが多いのです。たとえば「清」という漢字の「にすい」バージョンもありますが、そちらは「すずしい」とか「つめたい」とかいう意味で、「きよらか」とはちょっと違います。また、「冷」という漢字の「さんずい」バージョンもあるのですが、これは「澄む」という意味で、「つめたい」とはだいぶ違います。これらから推測すると「凉」と「涼」の間にも意味の違いがありそうなものですが、これは両者とも「すずしい」という意味で、全く同じと考えてよい、珍しい例だといえそうです。
しかし、だからといって「凉」と「涼」が「同じ漢字」なのかというと、問題は少しむずかしくなります。つまり「同じ漢字」とは何なのか、という問題があるのです。見かけが少しでも違えば「別の漢字」だ、という立場に厳密に立つと、手書きで漢字を書く場合、なぞらない限り完璧に同じ形の字を書くことは非常に困難ですから、「別の漢字」だらけになってしまいます。そこで、見かけがどこまで違うと「別の漢字」だと認定するのか、という線引きの必要が出てきます。このあたり、考え始めるとドツボにはまってしまう、頭のイタ~イ問題です。
ドツボは回避するとして、「凉」と「涼」の場合に限って考えてみると、これらは「にすい」と「さんずい」という、明らかに違う要素を含んでいますから、「読みも意味も同じだけれど別の漢字」としておくのがよいのではないかと思います。
=========================================================
と、ありました、
今回はこの問題には触れずに、『初稿版』に随いたいと思います。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
本日、やつと『天うつ浪』春陽堂版(初版本)の入力が一応終わりましたので、纏めてご報告いたします。ご協力眞に有り難うございました。ただ、内容てきには、未完の小説であり其の意味で物足りなさはありますが、致し方ありません。岩波版では、この後若干の補充があるようなので、今しばらく作業は続きそうです。でも和田さんが校正およびこの部分はやっていただけるようなので、しばらくは様子見です。美文書第9版本日入手しました。奥村先生ありがとうございます。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 奥村 晴彦 の投稿
全編完成、おめでとうございます!
これからもまた何か入力されたらぜひお知らせください。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
まずは、入力作業ご苦労様でした。

来年3月頃、入力終了予定とのことと思っていたので、
実際のところ
    - github へ登録
        - git で扱い易くするため CR/LF や長い一行を \ruby 毎に改行を入れるなどの作業をしています
    - intel mac ではコンパイルできなかった件は M1 mac なら OK なのを発見
    - mr2h さんのレイアウトだと3文字長いので、国会図書館などの PDF と見比べる際、
        首を縦にフリフリしなければいけないので 作業効率改善のため
            - 13pt に変更したり、
            -  ルビの振り方を初版本に合わせる
            - ...
        などの調整・検討していました。
      (なお、ルビの振り方は後ほど DM などでご相談させていただくつもりです)
などをの事前準備はできたのですが、
仕事の都合などでなかなか作業時間が取れず、
ご報告できるような状態には程遠いのが現状です。申し訳ないです。

仕事の区切りがつく年末から本格的に作業を開始できると思いますので、
できれば2月くらいに完了する目標で作業できればと思います。

それから、全部揃ったとのことですが、
巻毎にすると「第一」「第三」「第二」の順になったり、
「(2)」のようにファイルパスに半角の括弧があると、操作が面倒なので処理しやすいよう変更する予定です。
 
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
入力終了予定は、確かに来年3月予定でしたが少し急ぎました。
レイアウトだと3文字長い……件は、初版の判型を目視していないので良くは解りませんが私はA5判の書籍を前提に(でも適当に)text lengthをきめています。
3文字短くした場合、A5版に仕上げた場合、文字間隔は開きすぎになりませんか。
お忙しい和田さん、特段ペースアップする必要はありませんよ。ゆつくりやってくださいね。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
▪️3文字短くした場合の文字間隔について

広いかどうかより、13pt にすることで、
国会図書館などの PDF と見比べた時、
ほぼほぼ「行」単位で比較作業ができることを重視しました。

mr2h さんのルビの設定は、
熟語ルビ、(用語は正しくないけど)前突出・後突出有りを原則にして、
適宜グループルビや文字毎に振っていますが、
出来るだけ、熟語ルビやグループルビをやめ、
後突出有りで文字毎にモノルビ化、
3文字医女の場合次の文字のルビの先頭に全角空白を補ってルビが重ならないように調整するなどして
ほぼほぼ初版本と同じ行送りになりました。

熟語の途中で改行が入ったり、各文字に3文字以上のルビがある場合は、時々ずれますが、
段落毎でリセットされるので許容範囲としています。

最初のページを抜き出したものを添付しますので参考にしてください。
(漢数字の総ルビ化作業が漏れてはいますが ...)

添付 pdf には例はありませんが、
会話部分などの開き鉤括弧(『)が突き出てい流のも許容範囲としています。
和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- mr2h の投稿
『天うつ浪』第三の「其一」に、脱落がありましたので訂正を致します。
添付フアイルに入れ替えをおねがいいたします。まだまだ「要訂正」がみつかるかも、です。
mr2h への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
了解しました。
今後もこのような変更があると思いますので対策検討します。


和田 勇 への返信

Re: 長文原稿の入力を省力化、露伴「天うつ浪」のOCRからtextを抽出出來るか?

- 和田 勇 の投稿
ソースが部分的に散財するのはあまり良くないので
個人で作業している github に登録しました。
以前からコッソリ登録していましたが、今回、初心に戻って登録し直しています。

https://github.com/128Mac/SORA-UTSU-NAMI

登録にあたっては、
- git などの作業で修正内容が簡略表示できるよう \ruby などを基準に改行を加えています
- 無意味な「空白、空行」を削除
- CR/LF の調整
などの調整作業を行なっています。

とりあえず、リフレッシュしたので、第一巻冒頭ページの修正は未対応に戻しました、
どんな修正を行うかの例として「1st-calibration」というブランチで「水」の旧読みがな対応例を登録してあります。

なお時々、一括変更が望ましい場合は ruby か perl などで一括変更するのでその時の変更パターンもコミットログに登録しています。

今後、ビルドするための環境構築などの情報を READAME に付記しますので、
ご興味のある方は、時々覗いてみてください。


mr2h さんへ
  変更が発生した場合は、DM やメールで連絡していただければ、
  こちらで登録しますのでよろしくお願いします。