非常に答えにくい質問です。
内情が実際にややこしい点、ソフトの設定や仕様に依存する部分が大きい点、質問の焦点が今一つ曖昧な点が絡まっていると思います。
以下、不正確な点があるかもしれませんが、回答を試みてみます。
(1) 文字コードに関して
upLaTeXで組版し、dvipdfmxなどのdviwareでフォントを埋め込んだpdfを作成した場合、各文字がpdfでどのような文字コードで埋め込まれるかはdviwareの設定に依存します。
和文フォントとしてAdobe-Japanのフォントを設定した場合は、大抵は、おそらく以下のようになります。
- 半角(欧文)の"X" (U+0058, ASCIIの0x58)は、T1の0x58またはT2Aの0x58として埋め込まれる。
- 全角(CJK)の"X" (U+FF38)は、Adobe-Japanの813として埋め込まれる。
- 半角(欧文扱い)の"α" (U+03B1)は、LGRの0x61として埋め込まれる。
- 全角(CJK扱い)の"α" (U+03B1)は、Adobe-Japanの1035として埋め込まれる。
和文フォントとして非Adobe-JapanのUnicodeのフォントを設定した場合は、大抵は、おそらく以下のようになります。
- 半角(欧文)の"X" (U+0058, ASCIIの0x58)は、T1の0x58またはT2Aの0x58として埋め込まれる。
- 全角(CJK)の"X" (U+FF38)は、UnicodeのU+FF38として埋め込まれる。
- 半角(欧文扱い)の"α" (U+03B1)は、LGRの0x61として埋め込まれる。
- 全角(CJK扱い)の"α" (U+03B1)は、UnicodeのU+03B1として埋め込まれる。
文字コードのエンコーディングとコード値がばらばらであるため、
検索時に期待するようにヒットするかどうかは、pdf閲覧ソフトに依存します。
全角の"X" (U+FF38)と半角の"X" (U+0058)の場合は、同一視するかしないかについて、Unicode上の規定がいろいろあります。詳しくは「互換文字」「正規化」「東アジアの文字幅」などをキーワードとして調べてください。
pdf閲覧ソフト上でどうなるかはpdf閲覧ソフトの仕様に依存しますが、多くの場合、同一視する仕様か、同一視を可能とする設定を持っているためヒットさせることが出来ます。
LGRの"α"は、通常、dviwareの設定上、埋め込み時にUnicodeのU+03B1に変換するような指定になっていないため、pdf閲覧ソフトで検索をヒットさせることは困難と思われます。
逆に、埋め込み時にUnicodeのU+03B1に変換するような設定になっている場合には、難なくヒットすると思われます。(エンコーディングがUnicodeになっていて文字集合がLGRでvirtual fontの機構で文字コードを読み替えるようなフォントを指定。)
ちなみに
TeXのエンコーディングの解説のpdfでは、LGRの"α"が検索でヒットします。
(2) 和文(CJK)文字と欧文文字の隙間に関して
(u)pTeXでは、和文(CJK)文字と欧文文字の間に\xkanjiskip というグルーが入ります。このため、pdfのデータとしては、フォント切り替えに加え和文(CJK)文字と欧文文字の間に位置移動のコマンドが入ります。
検索時にこの隙間を「区切り有り」と認識するか「区切り無し」と認識するかは、pdf閲覧ソフトの仕様に依存していると思われます。