情報収集が苦痛になってきた
10年くらい前までは調べたいテーマについてGoogleで検索するとマニアックな個人のブログ記事が色々出てきて、読むこと自体が楽しかったし、読み込んでいくとなんとなく分かった気になれていた。 けど最近は、検索してもあまり欲しい情報が出てこなくなっている気がする。
個人のブログで発信されていたような情報が、ブログではなくYouTubeに流れていっているという要因もある印象。 ただ、YouTubeは検索性や効率の面で問題があって、面倒に感じてしまって使う気になれないことが多い。 動画は、テキストに比べて効率が悪すぎる。
とはいえ文句を言っててもどうしようもないので、自分のやり方を変えようと思って少し試行錯誤をしてみた。
現時点での自分のやり方
ベタだけど、ChatGPTのdeep researchは悪くなさそうだった。
試してみた感じでは、YouTubeの文字起こしなども含めて調査してくれていそう。 ただ、調べたいテーマによってはdeep researchだけだとイマイチなこともあった。
そういうときは、ChatGPTにテーマに関係しそうなYouTubeの動画のURLをいくつか出させて、deep research結果をPDFにしたものと一緒にNotebookLMに突っ込むと、やや手間はかかるけど結構良かった気がする。 よく知らないテーマについてはイマイチかどうか気づくのが難しい問題もあるので、ある程度担保したい場合は無条件でここまでやって良さそう。
deep researchが何らかの事情で使えない場合はYouTubeを突っ込んだNotebookLMだけでも悪くはなさそうな印象だったけど、やや情報が偏りがちだったような感じもあった。 YouTube固有の偏りなのか、ChatGPTが出す動画に偏りがあるのか、そのあたりはよく分かってない。
他に試してみたこと
自前スクリプトとChatGPTでYouTubeを文字起こし
YouTubeの自動文字起こしはそのまま読むのはなかなか苦痛なので、適当なスクリプトに食わせたものをさらにマイGPTに食わせて文章として整えて、Cosenseに文字と動画をセットで貼るということを試していた。
1時間半のライブ配信とかはこれをやるだけでも随分マシになったけど、どうにもめんどくさくて自分にはあまり定着しなかった。 APIなどを使えば自動化の余地は十分あるが、自動化自体の手間やコスト面の抵抗感もあって手動のまま試していた。 また、プロンプトエンジニアリング力が足りてないのか、マイGPTが文章後半になるほどハルシネーションがひどくなっていくという問題もあった。
特定の動画を要約はさせたくないけど効率よくインプットしたい、みたいな場合は悪くないと思う。
Whisperで文字起こししてNotebookLMに突っ込む
ChatGPTとやりあっていたらWhisperを紹介されたので、試してみることにした。
単に金を払いたくなかったというのと、半年くらい前に新しいPCを組んでいたので活用したかったというのが大きい。
Windows11+WSL2環境にChatGPT 4.5の指示に従って適当にやっていたら特に苦労せず日本語の文字起こしができたのですごい。 セットアップの手間をサボってたのでおそらくGPUアクセラレーションが効いてない状態だったけど、1時間半の動画を10分くらい?で文字起こしできてたと思う。
コマンドはこんな調子だった。
yt-dlp -f bestaudio -o "%(title)s.%(ext)s" "YouTubeの動画URL" whisper "ダウンロードした音声ファイル.m4a" --language Japanese --model base
ただ、精度についてはYouTubeの自動文字起こしよりちょっとマシか?という程度だった。もしかしたら使用するモデルを変えれば精度はもっと改善されるのかも知れないけど、そこまで試せてない。
結局、文字起こし結果をNotebookLMに突っ込んで、同じYouTube動画の自動文字起こしとセットでNotebookLMに色々答えさせるのが良さそうかな、という印象だった。
この方法も、特定の動画を要約はさせたくないけど効率よくインプットしたい、みたいな場合は悪くないと思う。 手間も先述の方法と比べると少ないし、GPUアクセラレーションやモデルの選択での改善余地も大きそうなので、今後も使うかも。
追記: NotebookLMの文字起こしについて
NotebookLMに突っ込めば文字起こししてくれてそうに見えるので自前での文字起こしは一見不要だけど、自分が確認した限りではあれは字幕データがあればそれを使うし、無ければYouTube上で確認できる自動文字起こしされたデータを使うだけで、何か特別に文字起こししてくれているわけではなさそうだった。
そして多くの動画は字幕データを入れてないので自動文字起こしで、精度はそこまで高くないように見えている。ので、補完するために自前での文字起こしもしている、という流れ。
なので、字幕データがちゃんとはいってる動画ならこれに限らず文字起こし作業は不要。
感想
YouTubeの自動文字起こしを使う、精度の悪さは数や他の種類の情報で補完する、というのが今回の肝だったのかなと思う。 動画じゃなきゃ伝わらない情報というのもあると思うけど、そうじゃないならやはりテキストは効率が良い。
将来的には、deep research的なものがもっと発達すれば今回書いたような面倒な手順も全部自動的にやってくれるようになって不要になりそう。 NotebookLMのような半自動的?なアプローチは過渡期的なもののように感じるけど、現時点ではめちゃくちゃ便利じゃんと思った。
そもそも、自分が知らないだけでもっと安くて効率が良い情報収集の手段がすでにありそうな気もしている。 正直、AI関連の情報は流れが早すぎて追うのがめんどくさいなーと思ってしまってるし、めっちゃ便利なやつが出てきたら誰かが騒いで自分でも気付けるでしょ、くらいの怠惰な精神で臨んでいる。
もっといいやり方があったら教えて下さい。