ニュース

Googleの生成AI「Gemini」最新アップデート、会話形式でやりとり可能になる「Live」など

 グーグルは、「Google I/O」の開催にあわせて、同日より生成AI「Gemini 1.5 Pro」を「Gemini Advanced」に導入した。「Gemini 1.5 Pro」の導入により、「Gemini Advanced」は各社の生成AIの中で最も長いコンテキストウィンドウを取扱可能となるという。今回紹介するアップデートの多くは、法人でも利用可能。

 「Gemini 1.5 Pro」は、100万トークン以上のコンテキストウィンドウを取扱できる生成AIで、文章では1500ページにおよぶ複数の内容を理解したり、100通のEメールを理解して要約したりできる。また、近いうちに1時間の動画コンテンツや3万行以上のコードベースが扱えるようになる。

 グーグルは、大容量のコンテキストウィンドウを活用するために、Google ドライブ経由またはデバイスから直接「Gemini Advanced」にファイルをアップロードする機能を追加した。

 この機能により、賃貸契約書の中でペットに関するルールの詳細を把握したり、複数の長文の研究論文の主要な論点を比較したりしやすくなる。

 さらに、スプレッドシートのようなファイルの内容を理解・分析してグラフを生成できるようになる。このとき、Geminiはユーザーのファイルをモデルのトレーニングには用いないという。

 「Gemini」は、文章、画像、動画などを扱えるマルチモーダルであり、「Gemini 1.5 Pro」は画像の理解が大きく改善している。このため、お気に入りのレストランで撮影した料理の写真からレシピを尋ねたり、数学の問題を写真に撮影して、その解き方を段階的に説明することが、1枚の写真から行える。

 「Gemini 1.5 Pro」は、150カ国以上の国、35カ以上の言語の「Gemini Advanced」契約者に提供される。

会話形式でやりとりできる「Gemini Live」

 「Gemini Live」では、友人とチャットでやりとりするのと同じように、「Gemini」とチャットや音声で質問を投げかけられる。「Gemini Live」は、今夏に「Gemini Advanced」契約者向けに提供が開始される。

 「Gemini Live」では、「Gemini」に話かけると最新の音声モデルを活用して自然な音声で応答するほか、「Gemini」が応答している途中に自分の質問を挟める。2024年の後半には、「Gemini Live」でカメラがサポートされ、周囲で見ているものについて会話が可能になる。

旅行計画の手伝い

 「Gemini Advanced」の新しいプランニング体験は、アクティビティをリストで表示するだけでなく、ユーザーにあわせてカスタマイズした旅程が作成できる。

 たとえば、「レイバー・デーの休日に家族でマイアミに旅行に行く。息子はアートが大好きで、夫は新鮮な魚介類が食べたい、Gmailからフライトとホテルの情報を取り出して、週末の旅行の計画を手伝ってくれない?」と頼むと、GeminiがGmailからフライト情報を取得し、Google Mapsを使ってホテル近くのおすすめのレストランや美術館を見つけ、1日の残りの時間を埋めるアクティビティをGoogle Searchで見つけ出し、それらを統合した旅程をプランニングしてくれる。

 予定を変更したり、詳細を追加したりすると、旅程が自動的に更新される。

「Gemini」をカスタマイズする「Gems」

 「Gemini」をカスタマイズする新機能「Gems」では、個々のニーズにあわせて、「Gemini」がどのように振る舞うかを決められる。

 Google I/Oで紹介された例は、ライティングコーチ、ヨガのペア、副料理長、微積分の先生、論文の査読者など、多様な「Gem」などで、用途や目的にあわせた「Gem」を設定できる。

 具体的には、「Gem」に対して「あなたは私のランニングコーチで、毎日のランニングプランを教えて、前向きでやる気がでるように動機づけて」などと依頼できる。

Googleアプリとの連携

 グーグルは、2023年に「Gemini」に拡張機能を導入し、既に利用中のGoogleアプリやサービスとの連携を可能にした。

 近いうちに、Googleカレンダー、タスク、Keepなどさらに多くのGoogleのサービスを「Gemini」と連携できるようになる。例えば、子どもの学校のシラバス(授業内容やスケジュール)の写真を撮影して、Keepに買い物リストとして追加できる。