Resource Centerリソースセンター

2024.06.05
基本から運用活用方法まで

ChatGPT-4o

2024年5月13日、OpenAIより新しいAIモデル『GPT-4o』が発表されました。
GPT-4oはテキスト、画像、音声を同時に処理できるマルチモーダルAIで、高速かつ効果的に多くのリクエストを処理するよう最適化されています。その結果、人間と区別がつかないほど自然な対話ができるとインターネットやSNS上で大きな話題を呼んでいます。さらに、この高機能なモデルが無料で利用できることも注目を集めています。
これまで、性能の低いGPT-3.5に対して嫌悪感や疑念を抱いていたユーザーも、GPT-4oの優れた性能を体験することでその見方が変わることでしょう。
本記事では、GPT-4とは何か、これまでとの違い、具体的な活用例について解説します。

GPT-4oとは?

GPT-4oは、OpenAIが開発した最新の人工知能モデルで、GPT-4を基に作られており、GPT-4よりも高速で、費用対効果が高く、より多くのリクエストを処理できるように最適化されています。
GPT-4oの「o」は「omni」を意味しており、テキスト、音声、画像などあらゆる入力形式を同時に処理できるマルチモーダルAIであることを示しています。これによりユーザーは様々なインターフェースを使って、より直感的にAIと対話することができるようになりました。また、GPT-4oは高度な視覚認識能力を備えており、音声入力機能が大幅に強化されたことで、スムーズに画像や音声を使ったやり取りが行えるようになりました。
有料・無料ユーザー問わず、OpenAIに登録さえすれば誰でも利用することができます。

機能紹介

無料ユーザーでも利用可能

ChatGPT-4oはアカウントさえあれば、無料ユーザーでも利用できます。ただし、無料ユーザーには使用回数の制限があり、上限に達すると自動的にGPT-3.5に切り替わります。
無料ユーザーはChatGPTの回答下に表示される雷のようなマークをクリックしてGPT-4oを選択するだけで簡単に変更できます。画像は有料プランのものなのでGPT-4が選択肢にありますが、無料ユーザーはGPT-3.5とGPT-4oの2択になっています。

雷のようなマークの位置を示す画像

マルチモーダル対応

GPT-4oは、テキストだけでなく、音声や画像など複数の形式のデータを理解し、処理することができるマルチモーダルAIです。従来のテキストベースの対話に加えて、音声入力や画像を使った対話も可能になります。例えば、ユーザーが画像をアップロードすると、その画像の内容を詳しく解析し、その内容に基づいたやり取りができます。また、音声入力では、自然な音声での応答が可能です。今後導入予定のビデオ通話機能により、さらに豊かなコミュニケーションが実現されます。

応答速度の向上

GPT-4oは、以前のバージョンよりも処理速度と効率が大幅に向上しており、リアルタイムで応答できるようになりました。特に、日本語の処理効率は1.4倍向上しており、ほとんど待ち時間を感じることなく、スムーズにやり取りできます。
さらに、内部アルゴリズムの最適化により、システムが中断することなく連続して会話を続けることができます。

視覚認識能力の強化

画像の内容を詳細に解析し、関連する情報を提供する機能が強化されています。たとえば、ユーザーが風景の写真をアップロードすると、その場所の情報や歴史、観光スポットなどを詳細に説明できます。

以下は、実際に写真をアップロードし、その結果を比較した例です。

ジニアの写真

GPT-4o

GPT-4oの結果。この写真は黄色い花の接写です。花の種類としてはおそらくジニアと思われます。と内容を正しく判断している。

GPT-4

GPT-4の結果。この写真は、黄色い花が中心にある花の接写です。この花は一般的にガーベラと呼ばれるものです。と内容を正しく判断できていない。 もつ鍋の写真

GPT-4o

GPT-4oの結果。この写真は、日本の伝統的な鍋料理、もつ鍋の準備段階です。と内容を正しく判断している。

GPT-4

GPT-4の結果。この写真は、韓国料理でよく使われるモツ鍋か韓国風スンドゥブの準備段階です。と内容を正しく判断できていない。

この結果から分かるように、GPT-4は似たものを見つけることはできますが、中心部に小さな花が密集していることは認識できるのにジニアだと判断できない、ニラと長ネギを区別できないなど、精度に欠ける部分があります。一方、GPT-4oはより細部まで認識できていることから、視覚認識能力が大幅に向上していることがわかります。

音声処理能力の強化

これまでは、音声を一度テキストに変換してから回答を生成していましたが、ChatGPT-4oでは音声そのものを処理することができるようになったため、リアルタイムで会話ができるようになりました。この音声認識の強化により、視覚障害者や文字入力が難しい状況でも対話がしやすくなります。
音声入力では、ユーザーの声のトーンや複数の話者の区別、背景のノイズを認識することができます。さらに、今後数週間以内には、応答時の声の抑揚や歌声、笑いなどの表現も取り入れられる予定です。

アプリから音声チャットを利用するには、右下のヘッドホンマークをクリックします。

入力欄の右隣にあるヘッドホンマークを示す画像。

グレーの丸が表示されたら、音声チャットがはじまります。

音声チャットの画面を示す画像。

音声チャットを閉じると、会話がテキストとして表示されます。

音声チャットを閉じて、元に画面に戻ると先ほどの会話がテキストとして表示されている画像。

なお、ブラウザ版では音声チャットは標準装備されていないため、プラグインのインストールが必要になります。

動画機能の追加

数週間以内に実装予定のビデオ通話機能を使うことで、ユーザーの表情やジェスチャーを認識して、より自然な会話が可能になります。さらに、音声認識と映像解析を同時に行うことができ、音声と映像を組み合わせてスムーズな対話ができます。また、リアルタイムでの翻訳機能も備わっているため、異なる言語を話す人同士が翻訳された内容で会話することもできます。

知識のアップデート

GPT-3.5の知識は2021年9月まで、GPT-4は2023年3月までの情報に基づいており、最新の情報には対応していませんでした。しかし、ChatGPT-4.0では2023年10月までのデータセットを使用しており、より新しい情報に基づいた回答になっています。

専門分野に対応

ChatGPT-4oは、誤情報や偏見を含まないようにトレーニングデータを厳密にフィルタリングし、外部の専門家にも確認してもらうことで、医療、法律、技術などの専門分野における知識が強化され、より正確な情報を出力できるようになりました。

多言語対応の強化

GPT-4oでは非英語圏の言語理解と処理能力が向上し、言語サポートの質が大幅に改善されています。テキストベースだけでなく、音声についての認識や翻訳も大幅に改善されているため、特にマイナーな言語での精度が向上しています。

カスタマイズ

これまでも、ある程度のカスタマイズは可能でしたが、ユーザープロフィールを活用したパーソナライズには限界がありました。GPT-4oでは過去の会話履歴や設定、ユーザーの好みなどを基に、より適切な応答や提案を行うことができます。

デスクトップアプリ

他の作業を中断することなく、ショートカットで簡単に立ち上げることができるデスクトップアプリがリリースされました。このアプリは、従来のバージョンに加え、スクリーンショットをアプリ内から直接撮ることができる機能も備えています。現在はPlus会員のみ利用可能ですが、数週間以内には無料ユーザーにも公開される予定です。現在はMacOS版しかありませんが、年内にはWindows版もリリースされる予定です。

活用例

ChatGPT-4oの高度な機能を活かして、さまざまなシーンで活用できます。

カスタマーサポート

以前に比べて細かなニュアンスまでくみ取れるようになったため、より質の高いカスタマーサポートが可能になりました。リアルタイム翻訳もできるため、海外からの問い合わせにも対応できます。
また、ユーザーの問い合わせに対して、テキスト、音声、画像を利用して応答できるため、詳細な案内を行うことができます。

会議の議事録作成

リアルタイムで会議の音声をテキストに変換し、議事録を自動的に作成することができます。
今後追加予定の映像認識機能もあわせると、オンライン会議で使われた資料なども組み込むことができるようになるかもしれません。

言語学習

以前はテキストサポートのみでしたが、音声機能が強化されたことで、日常会話の練習、特定のシナリオに基づいた対話練習、発音矯正など、より実践的な学習ができるようになりました。

まとめ

GPT-4oは、これまでのAIとは比べ物にならないほど自然で高速な対話が可能な点で注目を集めています。このマルチモーダルAIは、テキスト、画像、音声を同時に処理できる能力を持ち、さらに無料で利用できることも大きな魅力です。
生成AIの利用がますます広がっていますが、利用の際は著作権やプライバシーに配慮が必要です。個人情報を含むプロンプトを入力しないようにし、生成されたコンテンツに個人情報が含まれていないか確認が必要です。また、生成AIで作成したコンテンツが著作権を侵害する可能性があるため、他の著作物と似ていないかをよく確認することが大切です。さらに、生成されたコンテンツの正確性についても注意が必要です。生成AIが作ったものが必ずしも正しいとは限らないため、内容をきちんと精査することが重要です。特にビジネスでAIを利用する場合は、これらの点に注意し、責任を持って利用することが求められます。
マネージサイトでは、AIを使ったコンテンツ作りについてアドバイスを行っております。
社内リソースを用いたオウンドメディアの運営については、マネージサイトにご相談ください。

シェアする ツイート

お問い合わせ

マネージサイトに関するご質問など、
まずはお気軽にお問い合わせください。

お問い合わせ

無料診断のお申し込み

貴社のWebサイトの課題を信頼性、可用性、保守性、
保全性、安全性の5つの観点から診断します。

お申し込み