この記事はあえて日本語版だけを用意した。対訳が欠けたときに言語切替や hreflang がどう振る舞うかを確かめるためであり、同時に日本語検索の実地テスト用の文章でもある。
素朴な単語検索を試す
Pagefind の日本語対応は、語をセグメント(単語境界)で分割する方式で、辞書を引くような形態素解析ではない。だからまず、はっきりした単語がそのまま引けるかを確かめたい。たとえば「検索」という語をこの本文に何度か置いておく。記事を検索する、検索の精度を測る、というように使う。Astro や Pagefind といった英数字の語も対象になる。
活用形は展開されない
ここがいちばんの観察点だ。本文には動詞の活用形をいくつも置くが、辞書形はあえて入れない。
- 毎朝わたしは公園を走った。
- 締め切りが近づき、指が鍵盤の上を走り続けた。
- 子犬が庭をあちこち走り回った。
- いまも企画は止まらず走っています。
つまり「走った」「走り続けた」「走り回った」「走っています」は出てくるが、辞書形そのものは本文に存在しない。素朴な検索でこれらが一つの語としてまとまって引けるのか、それとも表層の形のままでしか引けないのかを、あとで実際に試す。
複合語の扱い
複合語もまとめて置いておく。全文検索、形態素解析、多言語対応、そして技術文書という語だ。複合語の全体で引けるのか、その一部だけでも引けるのかは、分割のされ方しだいで変わる。ここも実測で確かめたい。
まとめ
完全な日本語の検索精度を求めるなら、サーバ側で形態素解析を行う仕組みが要る。だが個人の技術ブログでは、素朴な単語検索でも用は足りる、という報告が多い。その「足りる」の手触りを、この文章を題材に自分の目で確かめておく。