2023/3/9 (木) は「のの会 第49回」に参加しました。
今回は、全文検索機能が参照する「全文索引」に添付ファイルを含めた場合、日本語のテキストファイルを正しく検索できるかどうかを検証してみた、という内容でお話しました。
のの会で使ったスライドを共有します。
実はこのテーマは、コンバージョンフィルタがバージョン 10.0 で KeyView から Apache Tika に変わったときに Shift-JIS のテキストファイルがヒットしなくなるという検証結果がありました。
そして最近、Shift-JIS のテキストファイルが検索できない問題は 11.0.1 FP3 で解消されたという技術文書を見かけ、また 12.0.2 で Apache Tika のアップグレード(主に Log4j の脆弱性への対応)があったことをもあり、再度検証してみたところ、オンラインヘルプの記載と異なる挙動を示したためサポートへ問合せ、解消する方法があったのでその報告もかねて今回のお話の内容となりました。
HCL Domino 12.0.2 を使った検証で分かったことがいくつかあります。
- デフォルトでは全文検索に Shift-JIS のみヒットし、UTF-8 はヒットしない
デフォルトではファイル内の文字列の抽出に Apache Tika ではなく Brute Force が使用されました(Brute Force は Domino 側の機能らしい)。文書に添付した Shift-JIS と UTF-8 のファイルには全く同じ文章が書かれていますが、抽出されたテキストのサイズは Shift-JIS が 1432 text bytes、UTF-8 が 94 text bytes と大きく異なっていました。このことから Brute Force にはテキストファイルの文字コードによって正しく抽出できない問題があることがわかります。
- 文字の抽出に Apache Tika を使うための修正版が存在する
メーカーサポートへ UTF-8 が検索にヒットしないと問合せたところ Domino へ適用できる HF(ホットフィックス)の提供がありました。この HF を適用し、なおかつ notes.ini へ設定を追加すると、文字の抽出に Brute Force ではなく Apache Tika が使われ、抽出されたテキストのサイズは Shift-JIS が 1431 text bytes、UTF-8 が 1423 text bytes とほぼ同じになり、全文検索に UTF-8 もヒットするようになりました。抽出に Apache Tika が使われれば Shift-JIS と UTF-8 のどちらも同じように実施されるようです。※追記も参照ください
なお、HF をインストールするときに Notes/Domino を終了しているにもかかわらず「まだ実行中」と叱られる件は、セーフモードで起動した OS (Windows 11) で HF のインストーラを実行することで解決しました。
以上が Domino(サーバー側)での検証結果となります。
ところで Notes や Nomad のローカル(端末側)にあるアプリケーションの全文索引では添付にある日本語が検索にヒットするのでしょうか。
試してみたところ、現状では次のとおりでした。
- Notes 12.0.2 Standard 64 bit Japanese ..... 添付は Shift-JIS の.txtと .pdf はヒットする
- Nomad Web 1.0.7 ..... すべての添付がヒットしない
- Nomad Mobile 1.0.28 (iOS) ..... すべての添付がヒットしない
改善に期待しています。
【2023/4/20 追記】
先日リリースされた HCL Domino 12.0.2 の FP1 を適用後に全文索引を再構築して挙動を確認したところ、notes.ini に「FT_USE_MY_ATTACHMENT_BRUTE_LIST=1」を追加した状態で Shift-JIS と UTF-8 の両方のテキストファイルが検索にヒットしました。これは次の Defect Article にも反映されています。
Tika Engine failed to perform indexing and search for characters in attachments with Unicode Shift-jis and UTF-8
https://support.hcltechsw.com/csm?id=kb_article&sys_id=f505d6f5db92299455f38d6d1396190f
この問題は、Notes クライアントにもありますが、現時点では HCL Notes 12.0.2 FP1 のうち「64bit Standard版」は 不具合が解消されてます。
ですが「32bit Standard版」と「Basic版」については Defect Article が更新されておらず不明です。
Attached files from local full-text indexed databases are not searchable in HCL Notes 12.0.2 Standard (32-bit)
https://support.hcltechsw.com/csm?id=kb_article&sys_id=96eded1c1bc2e990f37655352a4bcb01
Attached files from local full-text indexed databases are not searchable in HCL Notes 12.0.2 Basic
https://support.hcltechsw.com/csm?id=kb_article&sysparm_article=KB0104109
0 件のコメント:
コメントを投稿