以下の内容はhttps://cm3.hateblo.jp/entry/2015/06/03/115726より取得しました。


Solr5 で 日本語 を扱う

3つの選択肢があるようだ、kuromoji を使ってみようと思う。具体的な使い方は後程追記。

  • CJKAnalyzer で bigram モデル。一文字のクエリが扱えない。未知語に強い。速い。
  • JapaneseAnalyzer で lucene-gosen を使う。形態素解析するので bigram と逆の特徴。
  • JapaneseAnalyzer で kuromoji を使う。lucene-gosen との違いは、便利な search モード。文の解析で「関西国際空港」は一語として扱ってほしいが、検索では「空港」でも引っ掛かってほしいと思うでしょ?この日本語の合成語的な側面に長さをコストと見做すことで対応するモードを備えていたり、未知語に対して unigram を適用する(拡張 search モード)などがある。

参考:




以上の内容はhttps://cm3.hateblo.jp/entry/2015/06/03/115726より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14