Google; https://blog.google/products/gemini/how-we-built-gemini-robotics/
Google DeepMind、ロボット向け「Gemini 2.0」ファミリー発表 — ロボティクスの未来へ大きく前進
Google DeepMindが最近発表した、ロボット向けに特化した新たな「Gemini 2.0」モデル群の準備の中で、ロボティクス部門責任者のカロリーナ・パラダ氏は、チームとともにその技術力の最終確認を行った。
チームは、複数の関節とピンセットのような手を持つ研究用ロボット「ALOHA」の両腕に、見たことのない物体を使って初めての作業をさせた。
「たとえば、私の靴をテーブルに置いて“この中にペンを入れて”と指示したんです」とカロリーナ氏。「ロボットは少し考えたあと、その通りに作業をこなしました」
さらに、おもちゃのバスケットボールとゴールを使い、「スラムダンクして」と頼んだところ、本当にやってのけたという。「あれはまさに“わお”という瞬間でした」と彼女は語る。
これを実現したのは、Gemini 2.0の進化版「Gemini Robotics」モデル。テキストや動画、音声などを扱うマルチモーダル出力に加え、ロボット特有のデータでファインチューニングされており、物理的な行動が可能となっている。Google CEOのサンダー・ピチャイ氏は「この技術は、次世代ロボティクスの基盤になる」とX(旧Twitter)上で語っている。
汎用性・対話性・柔軟性を備えた次世代モデル
Gemini Roboticsモデルは、高度な器用さ(dexterity)、対話能力、汎用性を兼ね備えており、追加の訓練なしでも新しい物体や環境、指示に反応できる。
「私たちのミッションは、日常生活で人を助ける“具現化されたAI”を搭載したロボットを開発することです」とカロリーナ氏。彼女は子どもの頃に見たSFアニメに影響され、自動で家事をこなすロボットに憧れていたという。「将来的にロボットは、スマホやPCのようにAIと接するためのインターフェースの一つになります」
Gemini Robotics-ER:物体認識と行動生成を統合した「具現化推論」モデル
ロボットが安全かつ効果的に動作するには、状況を「理解して判断する力」と「実際に行動する力」が必要となる。Gemini Robotics-ERモデルは、そのうち前者の推論機能に特化しており、対象物の認識、サイズや位置の把握、移動に必要な軌道やグリップの予測までを担う。さらに、それを実行するためのコードも自動生成できる。このモデルは現在、信頼できるテスターやパートナーに提供されている。
また、Gemini Roboticsは、視覚・言語・行動を統合するGoogle史上最も高度なマルチモーダルモデルであり、ユーザーと対話しながら状況を判断し、行動に移すことが可能だ。とくに人間には簡単でも、ロボットにとっては困難だった「器用さ」の分野で大きな前進を遂げている。
「人間にとって当たり前の動作は、ロボットにとって非常に難しい」とカロリーナ氏。「空間認識と複雑な物理操作の両方が求められますが、Gemini Roboticsは複雑なマルチステップの作業をスムーズな動作と高い完了率でこなしています」
多様な身体に対応し、幅広い作業を実現
このモデルは、サラダの準備や子どものお弁当作り、○×ゲーム(Tic-Tac-Toe)、さらには折り紙のキツネを折るといった作業まで実行できる。また、研究向けのALOHAのようなロボットにも、Apptronikが開発した人型ロボット「Apollo」にも適応可能だ。
「ロボットを一つのタスクにだけ訓練するのではなく、広範なタスクで学習させ、汎用性を持たせる戦略を取りました」とカロリーナ氏。「ある程度の学習量を超えると、一般化の能力が自然に現れると予想しており、それは正しかったと感じています」
ロボットがランチを詰めたり、スナップエンドウをつまんだり、ホワイトボードを拭いたりと、さまざまな動作をこなす様子は実験映像でも確認できる。
将来のロボットは、人間中心の空間にも適応
「こうした高い汎用性と能力を備えたモデルが導入されれば、ロボットはこれまで以上に幅広い分野で活躍できるようになるでしょう」とカロリーナ氏。「複雑な設備や高い精度が求められる産業用途だけでなく、家庭のような人間中心の空間でも役立つ存在になります。まだ時間はかかるが、今の進歩はその未来に大きく近づく一歩です」