ロボット学習の「データ不足」に挑む——Noitom、年45万時間のデータ「ModalityNet」の仕組みと身体性…

身体性AI（エンボディドAI）およびヒューマノイドロボットの開発は、ソフトウェアとハードウェアの両面で未曾有の急成長を遂げています。しかし、その進化の前に立ち塞がる最大のボトルネックが「物理世界の学習データの枯渇」です。AIモデルの学習には膨大なデータが必要ですが、現実の物理空間におけるロボットの挙動データを収集することは極めて困難であり、コストと時間がかかる「スケーリングの限界」に直面していました。

この課題に対し、モーションキャプチャー大手のNoitom Robotics（ノイトム・ロボティクス）は、身体性AI向けに特化したマルチモーダルデータプラットフォーム「ModalityNet」をグローバル展開しました。年間45万時間の動作・視覚・力覚・触覚データを生成・供給するこの巨大なインフラは、これまで数年を要するとされていた汎用ロボットの社会実装プロセスを最短で3年前倒しにするポテンシャルを秘めています。

本記事では、この「ModalityNet」がロボット学習のパラダイムをどのように塗り替えるのか、その技術的特異点、未だ残る課題、そして技術責任者や事業責任者が注視すべき具体的な指標について、技術アナリストの視点から冷静に分析します。

1. インパクト要約：産業のルールはどう変わったか

これまでは、ヒューマノイドや多関節ロボットを開発する際、自社でハードウェア（ロボット実機）を用意し、人間のオペレーターがテレオペレーション（遠隔操作）でデータを1時間ずつ地道に収集する、あるいは物理シミュレーター上で実世界と乖離したモデルを構築するしかありませんでした。この手法は、労働集約的であり、かつ特定のハードウェア形状に依存するため、スケールアウトが不可能な「垂直統合型」の限界に突き当たっていました。

しかし、Noitomの「ModalityNet」の登場により、産業の前提条件は一変します。

年間45万時間におよぶ、誤差ゼロ水準の「グラウンドトゥルース（真値）」マルチモーダルデータが共通インフラとして提供され、さらに独自の「クロスエンボディメント・マッピング技術」によって人間の動きが異なるロボット形状へ自動的に適用可能になりました。これにより、ロボット開発企業は自社でデータを囲い込む必要がなくなり、「汎用的なデータインフラ（ModalityNet）で事前学習された基盤モデルを導入し、自社ハードウェア向けにわずかな微調整（ファインチューニング）を施すだけ」で、極めて高度な自律作業を実現できるようになります。

これにより、自社製ハードウェアごとに個別最適化されていた学習プロセスは崩壊し、産業の構造は「垂直統合」から、OSやコモディティ化されたプラットフォームを基盤とする「水平分業」へと移行します。

2. 技術的特異点：なぜ「ModalityNet」なのか？既存アプローチとの決定的な違い

これまでも、ロボット学習データの不足を補うために、世界的なテックジャイアントやスタートアップが様々なアプローチを試みてきました。その代表例が、NVIDIAを中心とする「シミュレーション（Sim-to-Real）アプローチ」と、Rhoda AIなどに代表される「動画ベース（Video-to-Action）アプローチ」です。

NVIDIAが主導する物理AIやロボット開発の取り組みなど、シミュレーター（Isaac Sim等）を用いたSim-to-Realは、デジタルの仮想空間で高速に試行錯誤を行える利点があります。しかし、現実の物理世界における微小な摩擦、物体の変形、動的な「コンタクトダイナミクス（接触力学）」をデジタルで完全に再現することは不可能であり、シミュレーションと実世界とのギャップ（Sim-to-Realギャップ）が常に課題となっていました。

また、動画によるロボット訓練を試みるRhoda AIの実用化ロードマップのようなVideo-to-Actionアプローチは、YouTubeなどのウェブ上の動画から「視覚的な挙動」を大量に学習できる一方で、ロボットを動かすために極めて重要な「力加減（トルクや触覚）」の情報が完全に欠落しており、形態の不一致（エンボディメント・ギャップ）を埋めるリターゲティング手法も確立されていませんでした。

Noitomの「ModalityNet」は、これらの限界を克服するため、以下の3つのコア技術を統合しています。

① 年間45万時間の高精度リアルマルチモーダルデータ

ModalityNetは、シミュレーションによる疑似データではなく、現実世界で計測された最高品質のグラウンドトゥルース（真値）データを提供します。データは以下の3つの特化型データセットで構成されています。

データセット名	提供規模（年間）	ターゲット領域	収録データの内容
ITW (In The Wild)	30万時間	多様で非定常な実環境での行動	日常生活、オフィス、動的な屋外環境での移動とインタラクション
HiPHI-MOV	10万時間	移動操作（Mobile Manipulation）	車輪付き・足式ロボットの歩行、ナビゲーション、ハンドリングの協調制御
HiPHI-OM	5万時間	精密作業（Object Manipulation）	指先レベルの触覚、3Dメッシュ、微細な力覚制御を要するアセンブリ作業

これらのデータセットは、単なる映像（RGB）だけでなく、デプスマップ（RGB-D）、触覚（Tactile）、力覚、物体形状メッシュ（3D Object Mesh）がすべて同期して収録されています。これにより、従来の動画学習では不可能だった「どれくらいの力で物体を握り、どう変形したか」を正確に物理グラウンディング（実世界への紐付け）することが可能となりました。

② 慣性式モーションキャプチャ技術に基づく高精度キャプチャ

Noitomは、実績ある慣性式モーションキャプチャー「Perception Neuron」の技術を保有しています。この高精度センサー群と光学式キャプチャを融合することで、人間の手先の微細な動きや全身の関節のトルク変化を、ミリメートル単位かつ高サンプリングレートでトラッキングし、ノイズのないクリーンなデータとして直接抽出します。

③ クロスエンボディメント・マッピング技術

これがModalityNetの最大のブレイクスルーです。人間の骨格構造と、ヒューマノイドや多関節アーム（関節数やアームの配置、自由度が異なる）の構造は一致しません。Noitomは、独自の幾何学的・運動学的マッピングアルゴリズムを開発し、人間の動作データを、異なるトポロジーを持つ任意のロボットアームや5本指ハンドへ歪みなく自動変換（リターゲティング）することに成功しました。

これにより、ロボット基盤モデル（VLA: Vision-Language-Action）の開発において、特定の機体ごとにデータを集め直す必要がなくなり、共通の「人間行動データ」からあらゆるロボットの動作モデルを学習できるようになります。

3. 次なる課題：データ量が解決した後に生じる新たなボトルネック

ModalityNetの登場によって、データ不足という「物理的制約」は大きく緩和されます。しかし、技術責任者（CTOやリードエンジニア）が次に直面するであろう新たな技術的・運用的ボトルネックも存在します。

① 動力学（ダイナミクス）ギャップの克服

クロスエンボディメント・マッピングは、運動学（キネマティクス＝位置と角度の変換）においては高精度に動作しますが、動力学（ダイナミクス＝重量、慣性、モータートルク、関節摩擦）の差までは完全には吸収できません。
たとえば、人間が5kgの物体を持ち上げる際の運動データを、ペイロードが2kgしかないヒューマノイドの腕にマッピングした場合、アクチュエータの出力飽和や、機体のバランス崩壊（転倒）が発生します。
このため、変換後の「軌道」をロボット自身の物理限界に合わせてリアルタイムに最適化する「全身制御（WBC: Whole-Body Control）」や「モデル予測制御（MPC）」とのシグナル統合が不可欠となります。

② 触覚・力覚データの標準化（キャリブレーション問題）

視覚（RGB-D）データや3D形状メッシュのフォーマットは標準化が進んでいますが、触覚や力覚データの標準化は未だ過渡期にあります。
ModalityNetが提供する触覚データ（高密度圧力マップや振動データ）を、ロボットメーカーが自社機体に搭載している異なるセンサー（例：GelSightなどの光学的触覚センサーや、静電容量式センサー）へ入力する際、センサーごとの物理特性の差異を補正するための表現空間（ラテントスペース）の共通化が必要になります。

③ エッジ（実機内）推論の計算コストと遅延

これだけのマルチモーダルな高次元データを統合したロボット基盤モデル（VLA）は、モデルパラメータ数が数百億規模に肥大化する傾向があります。
しかし、物理AIロボットがリアルタイムで柔軟に自律動作するためには、制御ループを少なくとも100Hzから1kHz（ミリ秒単位）で回す必要があります。巨大なマルチモーダルモデルをロボットの限られたオンボードPC（またはエッジAIアクセラレータ）に移植し、低遅延で推論（推論コストの削減、モデル圧縮、量子化）を行うためのソフトウェア最適化が次の戦場になります。

4. 今後の注目ポイント：事業・技術責任者がチェックすべき3つのKPI

ModalityNetを自社のロボット開発プロセスに導入、あるいはベンチマークするにあたり、事業責任者や技術責任者が今後追うべき定量的な評価指標（KPI）を提示します。

① MTBI（Mean Time Between Interventions / 介入間隔時間）の推移

ヒューマノイドを製造工場などの実環境に導入する際、最も重視されるのが「自律性」です。BMWの工場で実稼働するヒューマノイドロボットのように、実生産ラインで動作させるには、人間による介入（詰まりの解消、エラー復帰のための操作）が必要になるまでの時間（MTBI）を極限まで引き上げる必要があります。
ModalityNetの「HiPHI-OM（精密作業）」データを事前学習に組み込んだモデルが、初見の環境や不確実な条件下（Out-of-Distribution）で、MTBIを従来比で何倍向上できるかが最重要の評価軸となります。

② ゼロショット・タスク成功率（Zero-Shot Task Success Rate）

事前の実機訓練を一切行わずに、新しい対象物や未知のレイアウトに対してタスクを遂行できる確率です。特に、摩擦係数や硬度の異なる物体（例：硬い金属パーツから柔らかいプラスチック製プラグまで）を扱う組み立て作業において、ModalityNetの触覚・力覚データが効果を発揮しているかどうかは、このゼロショット成功率（目標：85%以上）に直結します。

③ マッピング・オートメーション比率（Mapping Automation Ratio）

人間のキャプチャデータを、自社のヒューマノイドの物理構成に適合させる際にかかる調整コストです。手動での運動学チューニング（リターゲティングの修正作業）がどの程度自動化されているか（目標：95%以上の自動化）、また、その自動変換にかかるレイテンシが開発のイテレーション速度を左右します。

5. 結論：取るべきアクション

Noitomの「ModalityNet」は、身体性AIの開発に必要なリソースのバランスシートを劇的に書き換えるインフラです。データ収集という極めて高コストな物理フェーズをアウトソーシング可能にすることで、ロボット開発企業は「ハードウェアの物理性能の追求」と「推論・制御ソフトウェアの最適化」にリソースを集中できるようになります。

技術責任者および事業責任者が今取るべきアクションは、以下の3点に集約されます。

データ・パイプラインの水平統合へのシフト:
自社によるスクラッチでのテレオペデータ収集計画を見直し、ModalityNetのようなクロスエンボディメント可能な共通データプラットフォームのAPIやデータフォーマットに対応できるデータパイプラインを早期に設計する。
クロスエンボディメント適合性の評価:
自社のハードウェア構成（関節自由度、アーム長、センサー構成）が、ModalityNetが提供するリターゲティングエンジンとどの程度の互換性を持つか、プロトタイプを用いて検証する。
エッジ推論環境の設計前倒し:
将来的に高次元のVLA（Vision-Language-Action）モデルを自社機体に実装することを前提に、オンボードの計算機リソース（GPU/NPUの選定）や、制御ループ（100Hz〜）のアーキテクチャ設計を今から前倒しで進める。

かつてスマートフォン産業でAndroidという共通OSが誕生したことでハードウェアメーカーが急速に立ち上がったように、身体性AI領域でも「高品質な共通物理データ」という産業のOSが誕生しました。このトレンドを早期に見極め、自社のポジショニングを再定義することが、これからの市場を勝ち抜く鍵となります。

出典: 36Kr Japan