以下の内容はhttps://diary.hatenastaff.com/entry/20110412/1302593095より取得しました。


本文中のキーワード抽出精度が向上しました

本日、はてなダイアリー本文中のキーワード抽出方法を変更しました。これにより、キーワード抽出精度が向上しました。

はてなダイアリーはこれまで、ある正規表現で本文内のキーワードを抽出し、はてなキーワードへのリンクを生成していました。下記の例では「はてなダイアリー」「ブログ」「コンピュータ」「インターネット」のキーワードに対して自動的にリンクを生成しています。

このとき、単語の境界判定の誤りなどから、意図しないキーワードへリンクする場合がありました。これまで、こうしたキーワードはリンクスコアを下げることによって対応しており、はてなダイアリーの「キーワードの自動リンク設定」内の「スコアの閾値」を上げることで大部分を回避できました。

今回、キーワード抽出アルゴリズムを、形態素解析エンジン「MeCab」を使った方法に変更しました。これにより、単語の境界判定の精度が向上し、スコアの閾値を0に設定している場合も、意図しないキーワードへのリンクが減りました。

なお、今回の変更により、はてなキーワードへ自動的にリンクするタイミングが変わりました。従来は記事投稿時にリンクしましたが、現在は記事投稿の数秒後にリロードした段階でリンクが表示されます。

はてなダイアリーは今後も、より使いやすく、より楽しいブログサービスを目指して、安定運用と改善を続けてまいります。




以上の内容はhttps://diary.hatenastaff.com/entry/20110412/1302593095より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14