マルチモーダルAIとはー8つの活用事例と今後について解説!

2023.09.07

マルチモーダルAIとはー8つの活用事例と今後について解説!

AI技術の進化が著しい今、多くのテック企業が「マルチモーダルAI」の技術を進化させています。

例えばOpenAIが開発したChatGPTは、当初はテキストのみの出入力に対応するものでしたが、今では画像や動画にも対応するマルチモーダルAIへと進化しています。

また、Metaは米国時間の23年8月22日、初のオールインワン型マルチモーダル多言語AI翻訳モデル「SeamlessM4T」を発表し、従来の翻訳システムの課題を大きく改善するツールとして話題を集めています。

このページでは、マルチモーダルAIの概要と活用事例、そして今後について解説します。

マルチモーダルAIとはー概要と従来のAIとの違いマルチモーダルAIとはー概要と従来のAIとの違い

まずは、マルチモーダルAIの概要と従来のAIとの違いについて解説します。

マルチモーダルAIと従来のAIとの違い

「マルチモーダルAI」とは、テキストや音声、画像、動画、そして数値など複数の異なるモダリティ(データの種類)から情報を収集して統合し、処理する人工知能システムを指します。

従来のAIは「シングルモーダルAI」と言い、例えば防犯カメラのように単一のモダリティから情報を得るものを言います。

防犯カメラでは、人々が集まって談笑している様子が映し出されていても音声情報は無いため、近所迷惑になるほど大騒ぎをしているのかまでは判断しきれません。

そこで、人間が視覚や聴覚といった五感を用いて判断するように、複数のモダリティから総合的に判断するマルチモーダルAIに注目が集まるようになりました。

マルチモーダルAIは、より人間に近い応用力をもった汎用型AI(AGI)に近づくためのアプローチになると言えます。

マルチモーダルAIの重要な要素「ディープラーニング」

「ディープランニング」とは、与えられた情報から何らかの規則性や共通点を見つけて分析を行う手法であり、人間の脳神経の働きであるニュートラルネットワークを学習させたものです。

ディープランニングによって、AIはより細かな認識を可能にしています。
例えば、従来のAIが音声認識を行う場合、話者の特定や発する単語の分別に留まっていましたが、ディープランニングを搭載することで話者の抑揚から感情を認識したり、音声情報から必要な情報の選別したりできるようになりました。

そして、このディープランニングの技術と複数のモダリティから情報を収集する技術を組み合わせた技術が、マルチモーダルAIと言えます。

マルチモーダルAIは多様な分野で活用される

マルチモーダルAIは多様な分野で活用される

マルチモーダルAIは既に多様な分野で活用されています。この章では、8つの活用事例を紹介します。

マルチモーダルAIの活用1:防犯・セキュリティの高度化

マルチモーダルAIは、行動認識技術を活用した防犯・セキュリティシステムにも活用されています。「行動認識技術」とは、動画や音声だけでなく人の数や身体の骨格・動きを検知し、人の行動パターンを把握する技術を指します。

主に防犯対策として監視カメラなどに採用されており、正確な状況把握に役立っています。

米Amazonは、家庭用の見守りロボット「Astro」を提供しており、所有者の生活パターンや部屋の配置を様々なセンサーから把握し、普段と異なる変化が生じた際にアラートを通知する機能を有しています。

※参考元:Introducing Amazon Astro, Household robot for home monitoring, with Alexa, Includes 30-day trial of Ring Protect Pro|Amazon

マルチモーダルAIの活用2:自動車の完全自動運転

自動車の自動運転の分野でも、マルチモーダルAIが大きな役割を担っています。

運転では、その時々の交通状況に応じて視覚や聴覚を駆使した高度な判断能力が必要になるため、従来のAIでは自動化が難しいとされていました。

しかし、マルチモーダルAIでは人間のように踏切の音や歩行者の年代、前方との車間距離まで識別できるため、完全自動運転の実現に大きく貢献すると言えます。

完全自動運転EVを目指す企業「Turing」は、「Teslaを超える自動車メーカーを作る」という目標を掲げ、2030年までに大規模基盤モデルを搭載したレベル5の完全自動運転車を10,000台量産することを発表しています。

※参考元:完全自動運転EVの量産を目指すTuring|Turing

マルチモーダルAIの活用3:病気の早期発見・予測

医療の分野において、マルチモーダルAIは病気の早期発見・予測に貢献しています。

病院が有する患者のカルテデータや医師による診断、そして画像解析技術を照らし合わせてマルチモーダルAIで診断することで、見逃しがちな病気の早期発見が可能です。

実際に、東京大学の医学部附属病院と量子コンピュータやAIを活用した企業向けクラウドプラットフォーム事業を展開する企業「グルーヴノーツ」は、高精度な疾患画像判別モデルを開発しています。

このモデルは、肝臓の超音波画像と患者の診療情報を統合し、腫瘍が良性か悪性かを高精度に判断します。この技術は、肝腫瘤の判別だけでなく様々な医療分野で応用できると期待されています。

※参考元:AI で医療画像と診療情報を統合 - 高精度な疾患画像判別モデルを開発 -|国立大学法人東京大学・株式会社グルーヴノーツ

マルチモーダルAIの活用4:工場での異常検知や生産効率向上

製造工場では、画像・音声・振動認識を活用した検品や作業分析が行われ、異常検知や生産効率の向上に活用されています。

例えば、ゼロコードAI製品を提供する企業「RUTILEA」は、工場や店舗においてリアルタイム作業認識AIシステム「REO」を提供し、作業分析・工程分析・安全保証サービスを提供しています。

REOは、複数のカメラで作業場を認識しながら作業スピードを計測して効率性を評価し、危険作業を検出して安全性を向上させます。

今後は、製造工程における品質管理や生産効率向上だけでなく、ロボットが人間の代わりに技術的業務を行ったり、従業員の勤怠・シフト管理を行ったりできるようになれば、大幅なコストカットにつながるでしょう。

※参考元:マルチモーダルAI REO – 『AIを簡単に。』すべての業務プロセスにAIが導入された社会の実現|RUTILEA

マルチモーダルAIの活用5:顧客対応・受付・介護でのコミュニケーション

マルチモーダルAIは、人間のような自然なコミュニケーションができる点も特長のため、顧客の対応を行うチャットボットや企業の受付、そして介護現場でも導入されています。

例えば、高齢者の適切なケアについて研究を行ってきた日本総研とKDDI、NICT、そしてNECソリューションイノベータは、介護モニタリングの一部の業務を代替するマルチモーダル音声対話システム「MICSUS」を開発し、実証実験を成功させています。

このシステムを導入することで、介護モニタリングを行うケアマネジャー業務の約7割の時間削減を実現しました。MICSUSは、対話を通じて遠まわしな発言や表情、うなずきなど様々な情報を収集し、高齢者の健康状態や生活状況の変化を推定します。

また、高齢者との雑談にも対応するため、コミュニケーションツールや見守り役としても活用できると期待されています。

※参考元:高齢者向け対話AIでケアマネジャー面談業務時間の7割削減に成功|KDDI

マルチモーダルAIの活用6:マーケティング分野

小売業界や広告業界では、市場動向や顧客情報を分析して売れる仕組みを考えるマーケティング施策が不可欠です。

そしてマーケティング手法である3C分析やSWOT分析、PEST分析、そして5フォース分析などを実践するには、実店舗での顧客の動向やECサイトでの購買傾向など様々なデータを収集して分析する必要があります。

例えば、ソフトバンクと日本気象協会は、小売り・飲食業界向けに人の流れや気象データを活用したAIの需要予測サービス「サキミル」を共同開発しました。

サキミルは、ソフトバンクの基地局から得られる端末の位置情報を元にした人流統計データと日本気象協会が保有する気象データを組み合わせ、高精度な需要予測を行います。これは、人材活用やフードロスの削減にも貢献するため、SDGsの達成につながると期待されています。

※参考元:人流・気象データなどを活用した小売り・飲食業界向け AI需要予測サービス「サキミル」を提供開始|Softbank

マルチモーダルAIの活用7:エンタメ分野でメタバースと融合も

マルチモーダルAIは、メタバースの世界でも活用が進んでいます。

メタバースの技術開発に力を入れるMetaは、メタバース内でスマホのような直感的な操作を実現するために、AIアシスタントの開発プロジェクト「Project CAIRaoke」を進めています。

Project CAIRaokeは、ARデバイスを装着したユーザーの目線や音声、そして行動履歴など様々な情報を分析し適切な提案を行います。例えば、ユーザーが「このパンツには何が合う?」と尋ねると、「これはあなたが好きな赤色のシャツです」とシャツ画像とともに掲示します。それに対してユーザーが「ストライプの幅が広すぎる」と答えると、Project CAIRaokeはピンストライプの赤いシャツ画像を掲示してきます。

同社はこのようなAI技術をさらに進化させ、メタバースアプリをより日常的なものとして利用できるように開発を進めています。

※参考元:Project CAIRaoke: Building the assistants of the future with breakthroughs in conversational AI|Meta

マルチモーダルAIの活用8:採点や選手のパフォーマンス向上に

「スポーツテック」という言葉があるように、スポーツの分野においてもDXが進んでいます。スポーツテックとは、IT技術を活用してスポーツの3つの分野「観る(Watch)・する(Play)・支える(Support)」において新たな価値を創造することを指します。

「観る」分野では、映像技術とビッグデータを活用してスポーツ解説や分析を行って競技を楽しむことを目指し、「する」分野では選手が装着したウェアラブルデバイスやセンサーを活用しトレーニングの精度を高めることを目指します。

そして「支える」分野では、ファンに対するコミュニケーションやスムーズなチケット販売システムの提供などが該当します。

このスポーツテックには、マルチモーダルAIが重要な役割を担っています。
マルチモーダルAIによって、最適なチーム戦略やトレーニング方法の立案が可能になり、採点競技において高精度な判定が実現すると言えます。

データアセットマネジメント事業を展開する企業「AOSデータ」は、アスリートのパフォーマンス向上に役立つスポーツデータプラットフォーム「AOS IDX」を提供しています。

AOS IDXは、膨大な量のスポーツデータとアスリートの身体情報・パフォーマンス傾向などを収集・分析し、パフォーマンス向上に役立てる仕組みを提供するため、スポーツテックの実現に貢献しています。

※参考元:AOSデータ社、スポーツテックでスポーツパフォーマンス支援の「スポーツデータプラットフォームAOS IDX」をSportsTech関連事業にInside実装サービスを開始|AOS IDX

マルチモーダルAIの今後

マルチモーダルAIの今後

最後に、マルチモーダルAIは今後どのように進化していくのかを解説します。

マルチモーダルAIの入力・出力の仕方は進化し続ける

現在、マルチモーダルAIは画像や動画、テキスト、そして音声などから情報を得ていますが、今後はロボットに搭載された触覚・嗅覚センサーなども組み合わせ、人間のように複雑な情報をインプットして分析できるようになります。

また、テキストから画像や動画を生成したり、画像から音楽なども生成したりするなど、より人間の創造活動に近いアウトプットも可能になるでしょう。

マルチモーダルAIを含むAIは、膨大なデータを組み合わせてアウトプットを行う能力を発展させ、いずれはユーザーが入力・出力情報を指定しなくても人間のようにゼロから新しいものを創造する日が来るかもしれません。

マルチモーダルAIを正しく使い分けてパーソナルAIへ

マルチモーダルAIは膨大な情報を処理するため、システムを開発し使いこなすには高い技術とコストが必要になります。

また、用途によってはシングルモーダルAIでも十分なケースもあるため、必要に応じてそれぞれを使い分けるノウハウも求められるでしょう。

今後は、マルチモーダルAIが人間の感情や行動を理解するにつれてサービスが多様化し、人々の日常生活全般をサポートする存在になっていくと言えます。

我々人間も、マルチモーダルAIを自分仕様にカスタマイズし、パーソナルAIとして使いこなすべくアップデートしていく必要があると言えます。

まとめ

マルチモーダルAIとはー8つの活用事例と今後について解説! まとめ

マルチモーダルAIについてまとめると、テキストや音声、画像、動画、そして数値など複数の異なるモダリティから情報を収集して統合し、処理する人工知能システムと言えます。

ディープランニングの技術と複数のモダリティから情報を収集する技術を組み合わせて実現した技術がマルチモーダルAIであり、汎用型AIに近いものとも言えます。

マルチモーダルAIは、次のような分野で活用されています。

・活用例1:防犯・セキュリティの高度化
・活用例2:自動車の完全自動運転
・活用例3:病気の早期発見・予測
・活用例4:工場での異常検知や生産効率向上
・活用例5:顧客対応・受付・介護でのコミュニケーション
・活用例6:マーケティング分野
・活用例7:エンタメ分野でメタバースと融合も
・活用例8:採点や選手のパフォーマンス向上に

今後は、マルチモーダルAIのインプット・アプトプットの仕方が進化し、より人間に近い分析や創造活動が可能になると予想されます。人間も、マルチモーダルAIを使いこなす知識とノウハウを習得してアップデートする必要があるでしょう。

ぜひ、自社ではマルチモーダルAIを利用してどのようなシステムが開発できるのか検討してみてください。

★以下の記事もよく読まれています。

人材不足でお悩みの企業様へ

IT業界では長年課題となっている「慢性的な人材不足」と「案件の低単価化」…

この課題を解決するBtoBマッチングサービスがあるのをご存じですか?

その名も「ふるリモエンジニア」。

ふるリモエンジニア」は、フルリモート案件に特化し、システム開発案件を発注したい企業と受注したい企業を直接つなげることで、全国から開発リソースの確保することが可能になります。

人材不足でリソースを確保したい

リソース不⾜が原因で、 相談や依頼のあったシステム開発の受注を断念した経験はありませんか?

ふるリモエンジニア」では、開発体制の⼀部をフルリモート化することで、全国の実績豊富な開発企業と協業体制を築きます。

人材不足、リソース不足でお困りの企業様はぜひ一度ご相談ください。(詳細はコチラ)

発注企業様向けに新しく『Freeプラン』をリリースいたしました。

今だけ『初期費用0円キャンペーン』実施中のため、「完全無料」で当サービスの利用を開始していただけます。

ぜひ、この機会に「ふるリモエンジニア」へお申し込みいただき、サービスをお試しください。

※案件のご掲載をご希望の場合は、有償プランへのアップグレードが必要となります。

エンジニアをお探しの企業様へ フルリモート開発で人材不足を解決!まずは資料請求してみませんか?

案件を獲得したい

ふるリモエンジニア」は、システム開発を依頼したい企業と直接つながることができるBtoBマッチングサービスです。

フルリモート案件に特化することで、全国どこでも開発が可能となり、いままで断念していた案件の獲得も可能となります。

案件を獲得したい企業様はぜひ一度ご相談ください。(詳細はコチラ)

案件をお探しの企業様向けに『お試しキャンペーン』を実施しております。

キャンペーン期間中は、エンジニア登録2名様まで「完全無料」で当サービスをお試しください。

ぜひ、この機会に「ふるリモエンジニア」へお申し込みいただき、サービスをお試しください。

※3名様以上のご登録をご希望の場合は、有償プラン月額11,000円へのアップグレードが必要となります。

お試しキャンペーン

フルリモートに特化した開発案件が見つかる!まずは資料請求してみませんか?

アバター画像

ふるリモ編集部

ふるリモメディア編集メンバーが不定期で更新します。
システムエンジニア業界と社会の動向から今話題の最新トピックまで、わかりやすく紹介します!

関連記事Related article

おすすめ記事Recommend

ジャンルから記事を探すSearch by genre

カテゴリから記事を探すSearch by category

案件をお探しの企業様へ フルリモートに特化した開発案件が見つかる「ふるリモエンジニア」のサービス詳細はこちら案件をお探しの企業様へ フルリモートに特化した開発案件が見つかる「ふるリモエンジニア」のサービス詳細はこちら
エンジニアをお探しの企業様へ ふるリモエンジニアならBtoBでエンジニアの⼈材不⾜を解決!サービス詳細はこちらエンジニアをお探しの企業様へ ふるリモエンジニアならBtoBでエンジニアの⼈材不⾜を解決!サービス詳細はこちら