前編から続きます。
第 34 回 中国地方 DB 勉強会 in 広島(LT 編)
私界隈のデータベース事情 pgVector の動作検証によるデータクレンジングの重要性について(もりしたさん)
今話題の pgvector を使う…ケースでの前処理の話でした。
なるほどAlloyDB(AI)が関係してるのか。#ChugokuDB pic.twitter.com/x8oaF9idOC
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
既存プロダクトでは RDBMS は使っていない状況で pgvector を選択したのは(AlloyDB AI を睨みつつ)ベクトル化などの検証をローカルで低コストで行おうとしたから、ということのようです。
pgvector についてはわたしも何本か Qiita と Zenn に記事を書いてます。
次から次へと続く壁(わかる)。#ChugokuDB pic.twitter.com/LHPrQE91MK
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
ChatGPT さんとかにクレンジング用のコードをサクッと書いてほしいところです。
DB 調査をしやすくするためのログ設計〜バックエンド編〜(Kaneyasu さん)
ログはログでも DB 本体ではなくてバックエンドアプリケーションで出力するログ(の中での SQL の扱い)の話でした。
小中規模だとDBのログが活用されにくい(しにくい)問題。#ChugokuDB pic.twitter.com/XMvY7U4XZR
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
AWS のマネコンに馴染みがなくて断念、とか。
SQLのログは…機密情報とか個人情報の扱いが難しい。#ChugokuDB pic.twitter.com/OpO2pK6wVc
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
LT の中の話以外ではこれも問題になりますね。
???「SQLのログ、読みにくいと思って整形出力するようにしておきました✧」#ChugokuDB pic.twitter.com/J1TJO83qHJ
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
いずれにせよ ORM やクエリビルダーを使っているなら手書き(プレースホルダーのみ使用)と区別がつきそうですね。
計算量オーダーの話(tsuda.a さん)
IPA試験受けた人なら親の顔より見たやつ。#ChugokuDB pic.twitter.com/rCFaRCPQy3
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
O 記法のアレです。
これ時間計算量だけじゃなくて空間計算量の話もあるのかな?#ChugokuDB
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
そちらはなかったようです。
インデックスを貼る際は更新頻度と検索頻度を意識する #ChugokuDB
— 3kyo (@t3qyo) 2024年5月25日
インデックスショットガンはやめましょう。
懇親会ではいろいろな話が出ましたが、
そういえば昨日の #ChugokuDB 懇親会で「ベクトル検索まではわかるがグラフが関わってくるの意味がわからん」という話が出たけど、ベクトル検索用インデックスとしてポピュラーなHNSWの場合、一旦グラフは置いといてグラフで構成されるレイヤー間をつなぐ木構造に注目すると少しはわかりやすいかも。 https://t.co/SZXE9yBn68
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
普段 RDBMS を愛用(?)している人は B 木やその派生系のインデックス以外は馴染みが薄かったりするのですが(一部 GIS 界隈だったり形態素解析が好きだったりする人は除く)、突如現れたベクトル(「計算で距離が出せるんだな」ぐらいまではわかる)の検索を高速化するために使うグラフまでくると何もわからない、という話も出ました。
(ちょっと雑だけど、上位の疎なレイヤーから下位の密なレイヤーまでつながっていく形がB木とかと同様の木構造で、これをたどればベクトル検索時の比較計算対象を減らせるイメージ)
— hmatsu47(まつ) (@hmatsu47) 2024年5月25日
B 木とは違うので完全な木構造にはならないですが、HNSW の切り口を横(水平)から縦(垂直)に変えてみると B 木に馴染んだ人にも少しはイメージしやすいかな?と。
ともかく、ブログに書かなかったような老人会系(?)の話あり、その一方で DBRE やベクトル検索などの新しい話もあり、で、バリエーション豊富な勉強会になりました。
久々に参加できてよかったです。
門司港観光(5/26)
夜のうちに小倉に移動し、朝から門司港へ。
#ChugokuDB 翌日は門司港へ。 pic.twitter.com/4oTWV5BStL
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
すでに駅のホームに降りたところからレトロな雰囲気が漂います。
一旦こちらへ。
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
開館まで時間があるので周辺を探索(近傍探索ではない)。 pic.twitter.com/OqvUlC6dIL
ここは最終目的地ではないのでさらっと流す。 pic.twitter.com/YjAyjeYEgC
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
本当はゆっくり見たかったのですが、時間の制約があったのでさらっと流しました。
そして、
到着。 pic.twitter.com/tcOy4qSfrU
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
本来の目的地、門司電気通信レトロ館に到着。
各地の通信関連の資料館は土日休みのところが多いのですが、ここは土日営業なのが嬉しいところ。
電話機のコーナーや、
ここは電話機が中心かな? pic.twitter.com/eNDtUJQVGn
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
電話ボックスのコーナー、
電話ボックスたち。 pic.twitter.com/Ya65xB5RPU
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
工具、
一部のクラスタはこっちのが好き? pic.twitter.com/SXPDEbq3g4
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
電報やモバイル、
シグマリオンはいなかった(残念) pic.twitter.com/5PlKFSdRo6
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
交換機(少なめ)、
交換機関連の展示は少なめ。 pic.twitter.com/3QHql3LmGG
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
電柱やケーブル、
一部のクラスタはこっちのが好き?(その2) pic.twitter.com/qlVKVRHqY4
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
そして体験コーナーなどがありました。
ちなみに…なぜここに来たか?というと、
これのネタの仕込みのためだったりします。
さっき関門海峡ミュージアムに立ち寄ったのはこれ(右)のため。
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
(次はもっと余裕のあるスケジュールでじっくり見たい) pic.twitter.com/qNn6rjk1gn
これが目的でした。
なお当日はお祭りの日だったので、ステージで踊っている人たちがいたり屋台が並んでいたりしました。
今日はお祭りの日みたい(さっきのところでもスタンプラリーやってた)。 pic.twitter.com/MF3CbphbQH
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
どっちが設楽さんでどっちが日村さん?
— hmatsu47(まつ) (@hmatsu47) 2024年5月26日
(それじゃない pic.twitter.com/pb9YBqrehW