以下の内容はhttps://kazuhito00.hatenablog.com/entry/2024/08/20/204803より取得しました。


MiniCPM-V2.6 を Colaboratory でお試し🔍

MiniCPM-V2.6 は、単一画像、複数画像、動画などを処理できるマルチモーダルLLMです。
個人的な感想ですが、この手のローカルで動かせるVLMで、複数画像や動画を処理できるものは珍しい気がしますね👀

MiniCPM-V2.6は、公式の説明では以下のような特徴があるらしいです。

  • 合計8Bパラメータ
  • 単一画像、複数画像、およびビデオ理解においてGPT-4Vを上回ります
  • 単一画像理解ではGPT-4o mini、Gemini 1.5 Pro、Claude 3.5 Sonnetよりも優れている
  • 強力なOCR機能
  • 多言語サポート
  • エンドサイド展開
  • 優れたトークン密度で、MiniCPM-V 2.6はiPadなどのエンドサイドデバイスでのリアルタイムビデオ理解をサポート

Colaboratoryで試した感じ、速度の割に結構精度が良いように感じます🦔

 

今回試したノートブックは以下にコミットしています🦔

github.com




以上の内容はhttps://kazuhito00.hatenablog.com/entry/2024/08/20/204803より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14