my-blog

日本語の全文検索の感触をたしかめる

公開日:

この記事はあえて日本語版だけを用意した。対訳が欠けたときに言語切替や hreflang がどう振る舞うかを確かめるためであり、同時に日本語検索の実地テスト用の文章でもある。

素朴な単語検索を試す

Pagefind の日本語対応は、語をセグメント(単語境界)で分割する方式で、辞書を引くような形態素解析ではない。だからまず、はっきりした単語がそのまま引けるかを確かめたい。たとえば「検索」という語をこの本文に何度か置いておく。記事を検索する、検索の精度を測る、というように使う。Astro や Pagefind といった英数字の語も対象になる。

活用形は展開されない

ここがいちばんの観察点だ。本文には動詞の活用形をいくつも置くが、辞書形はあえて入れない。

  • 毎朝わたしは公園を走った。
  • 締め切りが近づき、指が鍵盤の上を走り続けた。
  • 子犬が庭をあちこち走り回った。
  • いまも企画は止まらず走っています。

つまり「走った」「走り続けた」「走り回った」「走っています」は出てくるが、辞書形そのものは本文に存在しない。素朴な検索でこれらが一つの語としてまとまって引けるのか、それとも表層の形のままでしか引けないのかを、あとで実際に試す。

複合語の扱い

複合語もまとめて置いておく。全文検索形態素解析多言語対応、そして技術文書という語だ。複合語の全体で引けるのか、その一部だけでも引けるのかは、分割のされ方しだいで変わる。ここも実測で確かめたい。

まとめ

完全な日本語の検索精度を求めるなら、サーバ側で形態素解析を行う仕組みが要る。だが個人の技術ブログでは、素朴な単語検索でも用は足りる、という報告が多い。その「足りる」の手触りを、この文章を題材に自分の目で確かめておく。