画像・PDFも読める！AI Studioマルチモーダル活用法｜入門⑥

2026年1月20日 2026年3月24日

総　賢司

ー Information ー

この記事はこんな人向け: AIを単なる「チャット相手」ではなく、資料解析の「優秀な助手」として使いこなしたいビジネスパーソンやブロガー。
この記事で学べること: 画像やPDFを読み込ませる「マルチモーダル機能」の具体的な活用術と、ミスを防ぐための重要設定。
目安読了時間: 約4分

今回はカリキュラムの第3フェーズ【マルチモーダル】を学びます。
以前にAIに作ってもらったカリキュラムはこちら。

この記事は、全8回で構成される『Google AI Studio 初心者向け解説シリーズ』の第6回目です。
全体の流れを確認したい方は『ここをクリック』してください。

Contents

打ち込み作業はもう古い？AIに「目」を持たせるという革命
- Lesson 5：AIに「目」を持たせる（マルチモーダル入力）
  - ドラッグ＆ドロップで完了。AIを「視覚モード」に切り替える
  - 「文字」を追うだけでなく「空気」まで読む、驚愕の解析結果
- 【ここが盲点！】もっともらしい嘘を見逃すな
まとめ

打ち込み作業はもう古い？AIに「目」を持たせるという革命

これまでAIとのやり取りといえば「テキスト」が主役でした。

しかし、Google AI Studioの真骨頂は、文字以外の情報——つまり画像、動画、PDFなどを同時に理解する「マルチモーダル」にあります。

「わざわざ手入力するのは面倒だけど、データ化したい」

そんな日常の小さなストレスを、AIに「見せるだけ」で解決できるとしたらどうでしょうか。

今回は、Geminiの視覚能力を解放する設定と、その驚くべき解析精度を紐解いていきます。

Lesson 5：AIに「目」を持たせる（マルチモーダル入力）

AIからカリキュラムで提示された内容はこちら。

内容: 画像や動画、PDFファイルを読み込ませる。
実験: 手書きのメモをアップロードして、「これをテキストデータに変換して」と指示する。
目標: テキスト以外の情報をAIに処理させる。

私がGoogle AI Studioに対して最初に感じた一番のポジティブ要素が今回学ぶ『データを読み込ませる』ことでした。

では実際にその学習方法を聞いてみましょう。
（長いので見たい方は開いてください）

学習手順を見る場合は、ここを開いてください

　
手順1：準備（前の設定をクリア）

前のLesson 4で設定した「Few-shot（例示）」が残っていると、AIが変な挙動をする（無理やり分類しようとする）ので、一度きれいにします。

画面上の 「Clear current run」（リセットボタン）を押してください。
もしチャット履歴に、手動で編集した「商品が壊れていました…」などのやり取りが残っていたら、それらの左側にある「－（マイナス）」ボタンなどで削除するか、あるいは画面左上の「Create new」から新しいチャット画面を開いてください。
- モデルは「Gemini 3.0 Pro」のままでOKです。

手順2：画像をアップロードする

チャット入力欄（Type something）の左側、または中に、「＋（プラス）」マーク のアイコンがあるはずです。

「＋」ボタン をクリックします。
「Upload to Drive」（または Upload image）を選択します。
【実験用の画像】 を何か一つ選んでアップロードしてください。
- おすすめ: 手元にある「手書きのメモ」をスマホで撮った写真や、今見ているWebサイトのスクリーンショット、あるいは冷蔵庫の中身の写真など、何でもOKです。

手順3：画像について質問する

画像が読み込まれると、小さなサムネイルが表示されます。その状態で、以下の指示をテキストで入力して Run してください。

「この画像に何が写っているか、詳しく説明してください。」

または、手書きメモや書類の写真をアップロードした場合は、

「この画像に書かれている文字を、すべてテキストデータに起こしてください。」

ドラッグ＆ドロップで完了。AIを「視覚モード」に切り替える

では実践してみましょう。

Google AI Studioのチャット欄にある「＋」アイコンをクリック。
ここから画像やPDFをアップロードするだけで、AIはその「中身」を認識し始めます。

今回は実験として、私のブログが掲載されているランキングサイトのスクリーンショットを読み込ませてみました。

ブログランキングサイトの「総賢司のAI塾」というブログの、Google AI Studio学習シリーズの記事が並んだ画面のキャプチャ画像

画像内には、ランキング順位、太字のタイトル、薄いグレーのサブタイトル、さらには途中で切れた記事名など、雑多な情報が入り混じっています。

これをAIがどこまで「文脈」として理解できるのか、お手並み拝見です。

「文字」を追うだけでなく「空気」まで読む、驚愕の解析結果

結果は、「完璧」の一言でした。
単なる文字認識の枠を超え、AIは画像内の情報を以下のように構造化して理解していたのです。

視覚情報の優先度: 左上の小さな「1」という数字から、これがランキング1位であることを看破。
デザインの解釈: 薄くて小さな文字も漏らさず拾い上げ、サイトのコンセプトを正確に要約。
状況の推察: タイトルが途中で切れていることにわざわざ注釈を入れ、さらに「投稿時間」から最新記事であることを判断。

高い解像度でもない、ただのキャプチャ画像でも細かい文字までテキストにしてくれました。

実力はわかりましたが、さらに応用として、お堅い行政のPDF資料（経済産業省のパンフレット）を読み込ませました。

ここでも読解力は冴え渡っていました。

PDFプレビュー：経済産業省のパンフレット「教えて！経済産業省のしごと」の表紙が表示された画面のキャプチャ画像

感想としては、しっかり要点をまとめてくれていると感じました。

優れている点として、パンフレットではQ＆A方式で9問あったのですが、それをAIはまとめたのち6つの分野にわけて読みやすいように整理してくれています。

人間だと1つ1つまとめて終わりそうですが、さらに1歩先を見せてくれるAIはさすがです。
こういうところは国語力（特に読解力）の勉強にもなりますね。

【ここが盲点！】もっともらしい嘘を見逃すな

非常に強力なマルチモーダル機能ですが、実は最大の落とし穴があります。

それは、画像内の文字が極端に潰れていたり、手書きが乱れすぎていたりすると、AIは「もっともらしい嘘（ハルシネーション）」で隙間を埋めようとすることです。

特に数字や固有名詞については、過信せず必ずダブルチェックする姿勢が、賢い大人としての「AIとの付き合い方」です。

まとめ

【「見る」AIを味方につけて、思考の時間を最大化しよう】

画像やPDFを一瞬でデータ化し、構造化してくれる。このスキルを習得するだけで、これまで数十分かかっていた作業が、わずか数十秒で完了します。

浮いた時間は、AIにはできない「意思決定」や「クリエイティブな構想」に充てることができるはず。
マルチモーダルという強力な武器を手に入れた今、私もあなたもデスクワークは次のステージへと進むはずです。

次はさらに一歩踏み込んでみましょう。
次回は、このAIの知能を実際のシステムに組み込むための第一歩、Lesson 6「Get Code」を学びます。

Google AI Studioを基礎から学びたい方は、こちらのまとめページから順番に読み進めるのが一番の近道です。

カテゴリー: ホントに使える？AIツール

タグ: Google AI Studio マルチモーダル

画像・PDFも読める！AI Studioマルチモーダル活用法｜入門⑥

挫折者必見！AI Studioで最適学習プランを作るワザとは？｜入門③

打ち込み作業はもう古い？AIに「目」を持たせるという革命

Lesson 5：AIに「目」を持たせる（マルチモーダル入力）

ドラッグ＆ドロップで完了。AIを「視覚モード」に切り替える

「文字」を追うだけでなく「空気」まで読む、驚愕の解析結果

【ここが盲点！】もっともらしい嘘を見逃すな

まとめ

Google AI Studio の使い方【完全初心者向け】全8記事まとめ

指示より「例示」でGeminiが賢くなる！AI Studio活用術｜入門⑤

プロンプトをアプリ化！AI Studio「Get Code」活用術｜入門⑦