記事内に広告が含まれています。

Google AI Studioを学ぼう④【マルチモーダル 編】

前回はGoogle AI Studioの指示出しの技術(System Instructions・Few-shot Prompting)について学びました。

今回はカリキュラムの第3フェーズを学びます。
カリキュラムはこちら。

第3フェーズ:マルチモーダル

Lesson 5: マルチモーダル入力

AIからカリキュラムで提示された内容はこちら。

  • 内容: 画像や動画、PDFファイルを読み込ませる
  • 実験: 手書きのメモをアップロードして、「これをテキストデータに変換して」と指示する。
  • 目標: テキスト以外の情報をAIに処理させる。

私がGoogle AI Studioに対して最初に聞いた良い評価というのが今回学ぶ『データを読み込ませる』ことでした。

では実際にその学習方法を聞いてみましょう。

以下AIの解説

これまでのLessonでは「文字」で指示して「文字」で返してもらいましたが、Geminiの真の強みは、画像・動画・音声・PDFなど、あらゆるデータを同時に理解できる(マルチモーダル) 点にあります。

今回は、AIに「画像」を見せて、仕事をさせてみましょう。

手順1:準備(前の設定をクリア)

  1. 前のLesson 4で設定した「Few-shot(例示)」が残っていると、AIが変な挙動をする(無理やり分類しようとする)ので、一度きれいにします。
  2. 画面上の 「Clear current run」(リセットボタン)を押してください。
  3. もしチャット履歴に、手動で編集した「商品が壊れていました…」などのやり取りが残っていたら、それらの左側にある「-(マイナス)」ボタンなどで削除するか、あるいは画面左上の「Create new」から新しいチャット画面を開いてください。

手順2:画像をアップロードする

  1. チャット入力欄(Type something)の左側、または中に、「+(プラス)」マーク のアイコンがあるはずです。
  2. 「+」ボタン をクリックします。
  3. 「Drive」(または Upload files)を選択します。
  4. 【実験用の画像】 を何か一つ選んでアップロードしてください。

手順3:画像について質問する

画像が読み込まれると、小さなサムネイルが表示されます。その状態で、以下の指示をテキストで入力して 送信 してください。

指示の例:
「この画像に何が写っているか、詳しく説明してください。」

または、手書きメモや書類の写真をアップロードした場合は:
「この画像に書かれている文字を、すべてテキストデータに起こしてください。」

実践:画像をアップロードして説明させる

では早速やってみましょう。
見てもらう画像はこちら。

宣伝じゃないですけど、このサイトも参加している『人気ブログランキング』のキャプチャ画像です。

画像を見ると、【謎の数字1】、【黒い太字】、【薄い文字】、【小さい文字】、【途中で切れたタイトル】、【ハッシュタグ】、【ID・ポイント】などなど色々な情報が詰めこまれています。

いったいAIがテキストと情報をどこまで判断できるのでしょうか。

以下AIの回答と正誤判定

長いので1つずつ正誤判定を出していきます。

画像の全体像

ご提示いただいた画像は、ブログランキングサイト(「にほんブログ村」などの形式に類似しています)における、あるブログのプロフィールカードまたはランキング表示のスクリーンショットです。

ブログサイトの名前は違いますが、その他は正解です。
さすがの洞察力。

ヘッダー部分:

  • 左上にオレンジ色の四角で「1」とあり、ランキング1位であることを示唆しています。
  • ブログタイトルは「総 賢司のAI塾」。
  • サブタイトルには「AIっておもしろい!文系兄さんのAI活用ブログ…」とあり、文系出身の初心者がAIを活用する様子を綴っていることがわかります。

こちらは全部正解です。
薄い文字でもちゃんと認識してくれていますね。

記事サムネイル(3つ):

  • 最近の記事が表示されており、すべて「Google AI Studio」に関する学習シリーズです。
  • 左から順に「③ 指示出しの技術 編」「② AIを『操る』感覚 編」「① カリキュラム作成(タイトル途中切れ)」となっています。
  • 投稿時間は左端が「5時間前」、中央と右端が「11日前」です。

最近の記事と言及していますが、どこにもそんなこと書かれていないのにランキングブログの特性を理解しているようです。

タイトルが途中で切れいているのも注釈をいれてくれていますね。
ここも満点。

タグとフッター(ユーザー情報):

 「#ai」「#ライフハック」「#業務効率化」「#gemini」というハッシュタグが設定されており、ブログのテーマを表しています。

  • 投稿者のアイコン(似顔絵)とID、フォロワー数(3人)が表示されています。
  • ランキングポイントと思われる数値(週間IN/OUT、月間IN)が記載されています。
  • 「フォロー」ボタンと「報告」リンクがあります。

こちらも全部正解です。

実際にやってみた感想

画像を見ただけでAIはどれだけの情報を得たのか。

  • 画像はサイトのスクリーンショットであること
  • ランキングサイトであること
  • 小さな文字や薄い文字も判別
  • 文字が途中で切れていても、その事実を伝える

同時に画像内の文字起こしも依頼しており、全部テキスト表示されていました。

洞察力、抽出力、判断力、伝達力と完璧でしたね。

これなら派遣を雇ってデータを打ち込むといった作業は、AIで簡素化できそうです。

応用実践:PDFのデータをまとめてもらう

今度はPDFをアップロードして内容をまとめてもらいましょう。

画像の下にうっすら書かれていますが『kid_pamphlet.pdf』というPDFファイルです。
これは経済産業省の広報誌・刊行物・パンフレットのページにあったもの。

子供向けに仕事の内容が書かれているパンフで全3ページ。

これをAI Studioのチャット欄にアップロードして『このPDFの内容をまとめてください。』と依頼します。

実際のAIの回答は長くなるので隠します。


ご提示いただいたPDF「教えて!経済産業省のしごと」の内容をまとめました。

この資料は、経済産業省がどのような役割を果たし、私たちの生活や社会にどのように関わっているかを、子供向けに分かりやすく解説したパンフレットです。

主な内容は以下の通りです。

1. 経済産業省の目的と「経済・産業」の定義
  • 目的: 日本を元気な国にするために、企業活動の応援、貿易交渉、環境対策、エネルギーの安全確保など、あらゆる「経済活動」を支えています。
  • 言葉の意味:
    • 産業: モノやサービスを提供すること。
    • 経済: お金・モノ・サービスの世の中での流れのこと。
2. 具体的な取り組み(6つの分野)

① 企業の応援

  • 新しいモノやサービスを作るための資金を借りやすくしたり、専門家を紹介したりします。
  • 新しい技術やアイデアが盗まれないように守っています。

② 少子高齢化・介護への対応

  • 介護を手伝うロボットの開発や、遠くの病院に行かずに診察を受けられる仕組みづくりを進めています。

③ 生活の安全(電気・ガス)

  • 感電や火事を防ぎ、電気やガスを安全に使うためのルールづくりを行っています。

④ 環境保護・リサイクル

  • 地球温暖化対策: 省エネ製品の普及や、太陽光発電など温室効果ガスを出さないエネルギーの活用を進めています。
  • リサイクル: 資源を無駄にしないよう、ペットボトルや家電、自動車などを再利用する政策を進めています。

⑤ エネルギーの確保

  • 日本はエネルギーの約80%を輸入に頼っているため、輸入先が特定の国に偏らないよう多くの国と交渉しています。
  • 国内でもエネルギーを作れるよう、原子力発電や新エネルギー(太陽光など)の開発を進めています。

⑥ 貿易と未来(宇宙・空)

  • 貿易: 海外との輸出入をスムーズにし、安全でないモノが入ってこないようにルールを作っています。
  • 宇宙・空: 環境に優しく安い小型飛行機や、高性能な小型衛星の開発を応援しています。

感想としては、しっかり要点をまとめてくれていると感じました。

優れている点として、パンフレットではQ&A方式で9問あったのですが、それをAIはまとめたのち6つの分野にわけて読みやすいように整理してくれています。

人間だと1つ1つまとめて終わりそうですが、さらに1歩先を見せてくれるAIはさすがです。
こういうところは国語力(特に読解力)の勉強にもなりますね。

Lesson 6「Get Code(エンジニアへの入り口)」

ちょっと長くなりそうなので次回記事にします。

まとめ

Lesson 5: マルチモーダル編でしたが、画像やPDFの他にも音声・動画もまとめられるとのこと。

まだまだマルチモーダルに関しては試したいことがいっぱいあるので、今後実践例として記事にするかもしれません。

それだけ便利な機能ですからね。
いろいろやってみたいと思わせてくれる。

しかしまだまだ便利な機能が待っているので一旦このまま進みましょう。