以下の内容はhttps://ebstudio.hatenablog.com/entry/20150303/p1より取得しました。


全文検索インデックス進捗(3)

インデックスの構造を見直すことで、容量を圧縮し、オリジナルのHONMONのサイズの等倍程度ですむようになった。(n-gramのキーだけsqlite3に保存し、n-gramの出現するオフセットのリストをバイナリファイルに保存)
広辞苑の場合、HONMON2のサイズ 150MBに対して、インデックスのサイズ92MB。
今のところ青空文庫英辞郎クラスの1GB以下のHONMONならインデックスが作成できるが、wikipediaのように4GB超のHONMONではngram方式ではメモリ容量の問題で作成ができない。
別途形態素解析型を追加する案もあるが、このあたりでいったんリリースすることを考えている。




以上の内容はhttps://ebstudio.hatenablog.com/entry/20150303/p1より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14