人型ロボット業界の Unix モーメント

講演

图片



はじめに

今週、私は中国移動の第1回 具身智能パートナー大会で、10分間の基調講演を行いました。

それは特別に長い講演ではありませんでしたが、橋介数物にとってはとても重みのある瞬間でした——私たちがこの3年間で考え抜いてきた一つのことを、初めて完全な形で、公の場で語ったからです。

このことは社内で長く議論し、かなり迷いました。こんなに早く話すべきかどうか、ずっと躊躇していました。しかし最終的に話すことにしたのは、これは橋介一社の話ではなく、具身ロボット業界全体が向き合っている、最も重要な構造的問題だと、ますます確信するようになったからです。

以前話した内容を少し広げて、ここに書いておきたいと思います。もし会場であの10分を聞いていたなら、この記事はその「拡張版」です。聞いていなければ、こちらのほうがより完全です。

以下が本文です。



16社、同じことをしている

この18か月、私たちは社内で、外からはあまり注目されていないけれど、私たちにとって非常に重要だと感じる事実を目の当たりにしてきました——

16社のヒューマノイド企業が、ゼロからイチの運動制御能力を、私たちのところで実現しているのです。

16社、16の独立した製品ライン、16の異なるチーム。

その中には上場企業のヒューマノイド事業部門もあれば、複数回の資金調達を終えた注目のスタートアップ、研究機関から孵化したプロジェクト、そして別の形態から二足歩行に参入したベテランの完成機メーカーもあります。資源も、出発点も、技術スタイルも大きく異なります。

しかし私たちが見たのは一つの事実でした——彼らのアルゴリズムエンジニアが、ほぼ完全に同じ仕事をしていることです。

私たちのエンジニアチームに投げられる問題は、同じ種類の問題でした。彼らが貼り出すエラーログの構造も、非常によく似ていました。問題の解き方も、最終的には似たようないくつかの道筋に収束していきます。

具体的には、彼らは次のことを解決しています:

  • ハードウェア抽象化:異なる関節、異なるモーター、異なるセンサー、異なる制御周波数を持つボディを、上位アルゴリズムが呼び出せる一つのインターフェースにどう統一して接続するか

  • 運動制御:強化学習で訓練した方策を、実機に問題なく展開するにはどうすればよいか

  • シミュレーション整合:シミュレーションでうまく動くモデルを、実際のハードウェアに移したときにも同じように動かすにはどうすればよいか

  • データ回流:ロボットが現実世界で生成したデータを次の学習サイクルに戻し、能力を継続的に進化させるにはどうすればよいか

この4つのことは、ヒューマノイドを作っているほぼすべての会社がやっています。

各社のエンジニアチームでは、60〜70%の人員が、他社とほぼ同じ問題を解決するために使われているのです。

この事実は、社内で私たちを長く立ち止まらせました。

私たちが考えたのは「これはビジネスチャンスだ」ということではありません——そんな発想は短期的すぎます。私たちが考えたのは:

なぜこうなるのか?なぜ16社もの完全に独立した会社が、まったく同じことをしているのか?歴史上こんなことは起きたことがあるのか?もしあるなら、最後はどう収束したのか?



歴史の2つのこだま

图片

実はこのこと、私たちにはまったく新しい話ではありません。

過去半世紀あまりの計算産業において、ほとんど同じ構図が、少なくとも2回起きています。

  • 半世紀前:Unix が登場する前

20世紀60〜70年代、メインフレームの時代です。IBMは自分たちでOSを書き、DECも自分たちでOSを書き、Burroughsも、Honeywellも自分たちでOSを書いていました。どのコンピュータ会社も、自社ハードウェア上でしか動かない専用のOSを自分たちのために作っていたのです。

アプリケーション開発者は、別の会社の機械に乗り換えるだけで、ほとんどゼロから新しいシステムコール、新しいファイル形式、新しい開発ツールを学び直さなければなりませんでした。計算産業全体の能力は、各社ごとの「垂直スタック」に閉じ込められていたのです。

1969年になると、ベル研究所の2人のエンジニア、Ken Thompson と Dennis Ritchie があるものを書き始めました。彼らはそれを Unix と呼びました。Unix の設計思想はとても素朴です——ハードウェアをまたぎ、移植可能で、誰でも改変でき、誰でも拡張できるOSを作ること。

Unix は、どこか一社の「製品」ではありませんでした。それは「OSとは何であるべきか」を再定義する考え方でした。断片を「インフラ」に変えたのです。

Unix の後に続く物語は、今日の私たちはすでに知っています。Linux、BSD、macOS、Android、iOS——今日、世界で動いているほとんどすべてのOSは、Unix思想の直系または傍系の子孫です。

計算産業が本当に飛躍したのは、トランジスタからではなく、Unix からだったのです。

  • 約20年前:Android が登場する前

21世紀初頭、スマートフォン時代の前夜です。Nokiaには Symbian があり、BlackBerryには BlackBerry OS があり、Motorolaには独自のファームウェアがありました。どの携帯メーカーも、自社ハードウェア上でしか動かないファームウェアを自分たちのために作っていたのです。

アプリ開発者が、複数の携帯電話で動くアプリを作るのはほとんど不可能でした——各社のファームウェアごとに個別に適合させなければならなかったからです。モバイルアプリのエコシステム全体が、各携帯メーカーの「垂直スタック」に閉じ込められていました。

2008年、Android がリリースされました。Android は1台のスマホではありません——Android は、どの携帯メーカーも使うことができ、しかもアプリのエコシステムに接続するために同じインターフェースを使わなければならないOSでした。

Android の後の物語も、私たちはよく知っています。モバイルアプリのエコシステムは、5年でPCアプリの20年分の道のりを走り切りました。

  • 2回の同じ構造

この2つの「OSの瞬間」は、驚くほど同じ構造をしています:

  • 新しい計算パラダイムが立ち上がっている(メインフレーム / スマートフォン)

  • 各ハードウェア企業が、同じ基盤ソフトウェアをそれぞれ作り直している

  • 業界の本当のボトルネックは「アルゴリズムが十分に賢くない」ことでも「ハードウェアが十分に強くない」ことでもなく、能力をハードウェアをまたいで再利用できる、広く認められた「インフラ層」が存在しないことにある

  • その層が現れた瞬間、産業全体がそれ以前をはるかに上回る速度で飛び立つ

私たちが長く見てきたうえでの結論は、今日のヒューマノイド業界は、あの2回とまったく同じ構造的位置にあるということです。



必要なのは、もっと賢いアルゴリズムではない

これは何を意味するのでしょうか。私たちの判断はこうです——

ヒューマノイド時代に欠けているのは、もっと賢いアルゴリズムではなく、ロボットソフトウェアがもっと汎用的でなければならないということです。

この言い方は、少し直感に反するように聞こえるかもしれません。

過去2年間、業界の関心はほぼすべて「アルゴリズム」に向いていました——より強い強化学習、より大きい VLA モデル、より賢いエンドツーエンド方策。新しい論文が出るたび、新しいデモが出るたびに、業界の視線は「アルゴリズムは賢ければ賢いほどいい」という方向へ引っ張られてきました。

私たちは、アルゴリズムが賢くなることの重要性を否定しているわけではありません。ただ、言いたいのは——

もし今日のヒューマノイド業界で本当に詰まっていることが「アルゴリズムが賢くない」ことだけなら、それは12〜24か月で自然に解決される——なぜなら、アルゴリズムの進歩速度は、今のAI産業の中でも最速クラスだからです。

しかし、もし本当にこの16社が日々エンジニアリングに費やしている人手を見れば、彼らが「賢いアルゴリズムを、実機で安定・安全・再現可能に動かす」ことに使っている時間は、「アルゴリズムをもっと賢くする」ことに使っている時間をはるかに上回っていることがわかるはずです。

だからこそ、私はこう言うのです——必要なのは、もっと賢いアルゴリズムではなく、ソフトウェアがもっと汎用的になることです。

ある賢いアルゴリズムが、特定の本体で、特定の場面で、特定の期間だけ動くとしても——それが産業全体にもたらす価値には限界があります。

ある賢いアルゴリズムが、本体をまたいで展開でき、ミリ秒単位で安定実行でき、継続的に現実世界と整合できるとき、初めてそれは本当の意味で「産業能力」になります。

そしてそれを実現するには、この業界には「OS」が必要です。

今日、私たちはこう考えています——

「ヒューマノイド業界の Unix の瞬間が、いま起きつつある」

これは講演で私が口にした言葉であり、この文章全体で伝えたい核心でもあります。



それは何ではないのか

图片

では、ヒューマノイド時代のOSとは、いったい何なのでしょうか?

これは「それは何ではないか」よりも難しい問いです。というのも、今日の業界にはすでにいくつかよく知られた名前があり、それが「そのものがOSだ」と誤解されやすいからです。

だからまず、3つのそれは何ではないかを先に言いたいと思います。

  • それは ROS ではない

ROS は非常に優れたツールです。私たちの会社の中にも、ROS の世界で成長してきたエンジニアがたくさんおり、私たちはそれに十分な敬意を持っています。

しかし ROS は、ヒューマノイド時代のOSではありません。

ROS の本質は、モジュール間通信のフレームワークです。ロボットシステム内の知覚、計画、制御など、異なるモジュールを組み合わせられるようにします。その起源は2007年前後の研究コミュニティの探求にあり、中心となる抽象化は Node/Topic/Service という、Publish/Subscribe ベースのメッセージ伝達機構です。

このこと自体は非常にうまくできています。しかし、そもそも大規模生産導入のために設計されたものではありません——ハードウェアをまたぐ抽象化の問題を解決せず、ミリ秒級リアルタイム制御の問題を解決せず、本体をまたいだ能力の蓄積の問題も解決しません。

私たちの時代における ROS の役割は、初期 Unix 時代の「pipe」のようなものです——価値ある通信機構ではあるが、OSそのものではないのです。

  • それは NVIDIA Isaac ではない

Isaac もまた、非常に優れた製品です。シミュレーション、学習、合成データといった領域で、業界全体にとって非常に重要なインフラを提供しています。

しかし Isaac は、ヒューマノイド時代のOSではありません。

Isaac はTraining-time のプラットフォームです——ロボットがシミュレーション世界の中で、あることを学ぶためのものです。その能力の境界は、「訓練」と「シミュレーション」にあります。

それは一つのことを解決しません——現実のロボットが、現実の工場、現実の家庭、現実の道路で、毎ミリ秒、毎日、毎年、どう動き続けるかという問題です。

この点は、業界で非常に軽視されがちな区別があります——Training-time と Runtime は、まったく別の問題です。

ロボットに「動きを学ばせる」ことと、ロボットを現実の物理世界で安定して歩かせ、安全に動かし、継続的に働かせること——これは別々のエンジニアリング問題であり、別々のシステム能力を必要とします。

Isaac は「Training-time」の側を非常に堅実に作っています。しかし「Runtime」の側については、今日の業界に広く認められた答えはまだありません。

  • それは VLA の大規模モデルではない

VLA(Vision-Language-Action)大規模モデルは、2024年から2026年にかけてヒューマノイド業界でもっとも注目されている方向性の一つです。Physical Intelligence、Google DeepMind、银河通用、智元、そしてほかにも多くの優れたチームがこれに取り組んでいます。

VLA 大規模モデルもまた、ヒューマノイド時代のOSではありません。

VLA 大規模モデルは非常に重要なことをしています——「ロボットが何をすべきか」を解決しているのです。言語指示と視覚入力が与えられると、VLA モデルは高レベルの行動意図を出力します。

これはロボットの認知脳です。極めて重要です。しかし、別の種類の問題は解決しません——

その高レベルの意図が与えられたあと、どうやってミリ秒単位で安定した関節トルク出力に変えるのか? 実行中に、どうやって転倒せず、人を傷つけず、自分を壊さないことを保証するのか? 24時間365日稼働の中で、どうやって安定性を保ち続けるのか? ハードウェアの摩耗、センサーのドリフト、環境変化があっても、どうやって動き続けるのか?

この種の問題は VLA 大規模モデルでは解決しておらず、そもそも解決するつもりもありません——なぜなら、それが扱っているのは「何をするか」という層だからです。

「何をするか」を知っている脳を、本当に「安定して、安全に、継続して実行できる」ロボットに変えるには、その間に一式のシステム能力が必要です。そしてそのシステム能力には、今日の業界で広く受け入れられている名前がまだありません。



では、それはいったい何なのか

图片

3つの「それは何ではないか」を話したので、次にそれが何なのかを話します。

私たちはそれを——Runtime Robot OS、つまりランタイム・ロボットOSと呼んでいます。

この名前には一つのキーワードがあります。「Runtime」——実行時です。

これは「Training-time」と対になる概念です。Training-time が気にするのは「ロボットは学べるか」であり、Runtime が気にするのは「ロボットは現実世界で動けるか」です。 この2つは同じくらい重要ですが、別々の問題であり、別々のシステムが必要です。

Runtime Robot OS には、同時に3つの能力が必要です:

  • 本体をまたぐハードウェア抽象化(Multi-Embodiment Abstraction)

上位の方策、モデル、アプリケーションが、下位のハードウェア差異を意識しなくて済むようにしなければなりません——二足でも、四足でも、車輪付きでも、関節がダイレクト駆動でも減速機駆動でも、センサー構成がどうであっても、上位層は統一された方法でアクセスできる必要があります。

このことは歴史上、OSがすでに2回やっています:

  • PC のOSは、アプリがCPUが Intel か AMD か、GPUがどの機種かを意識しないようにしました

  • スマホOSは、App がどの携帯メーカーのハードウェアかを意識しないようにしました

Runtime Robot OS は3回目をやるのです——ロボットアプリが、どの本体なのかを意識しなくて済むようにすること。

  • ミリ秒級のリアルタイム安全実行(Real-time Safe Execution)

それは、1秒単位ではなく、100ミリ秒単位でもなく、毎ミリ秒のスケールで、ロボットの関節トルク出力、力制御の制約、安全境界が安定し、予測可能で、暴走しないことを保証できなければなりません。

これこそが、ロボットと「普通のソフトウェア」の最大の違いです——普通のソフトウェアが一瞬止まっても、ユーザーは再起動すればよい。しかしロボットが一瞬止まれば、人を傷つけるかもしれないし、自分を傷つけるかもしれないし、周囲を壊すかもしれません。

ミリ秒級のリアルタイム安全は、Runtime Robot OS にとって絶対に外せない最低条件です。

  • 現実世界と継続的に整合する学習能力(Continual Real-world Alignment)

ロボットは、一度書き込んだら一生変わらない機器ではありません。現実世界で稼働する以上、センサーはドリフトし、ハードウェアは摩耗し、環境は変わり、タスクも進化します。

Runtime Robot OS には——各ロボットが現実世界で得た実行経験を蓄積し、回流させ、次世代の能力として学習し、それを安全にすべてのロボットへ配信する能力が必要です。

これこそが、ロボット時代の本当の「データフライホイール」です。今日の大規模モデル業界の「ユーザーフィードバック強化学習」とは同じものではありません——後者はテキスト、前者は物理です。

この3つを、既存のどのシステムも同時には実現できていません。

ROS は通信抽象化の一部を担っていますが、本体をまたぐ能力も、リアルタイム安全も、学習ループもありません。

Isaac は Training-time の能力の一部を担っていますが、Runtime の上にはいません。

VLA は認知抽象化の一部を担っていますが、実行と継続学習は解決していません。

この3つを同時に実現するシステムだけが、「ロボット時代のOS」と呼ばれる資格を持ちます。



なぜ私たちがこれを実現可能だと信じるのか

ここまで話して、こう思う人がいるかもしれません——

「話は重要そうだけど、本当に作れるの? それともただのPPT上の概念では?」

それはとてももっともな問いです。きちんと答えたいと思います。

3年前、橋介数物を立ち上げた当初、私たちは今日の私たちにとって非常に意味深い決断をしました——完成機を作らない、大規模モデルを作らない、アプリも作らない。専念して『運動制御』の層だけをやる。

この決断は2023年にはあまり賢く見えませんでした——当時は完成機を作るのが sexy で、大規模モデルは熱く、アプリには顧客がいました。あえて「中間層」だけをやるのは、外に説明しにくく、内側のプレッシャーも大きかったのです。

しかし私たちがこの決断をしたのは、ある判断に基づいていました:

ロボット業界は必ず層構造になる。運動能力を「案件納品」から「インフラ」に変えられる者が、物理世界のAI化における重要な入口の一つを握る。

3年が経ち、今では検証可能な事実をいくつか示せます:

  • 26社のヒューマノイド企業が、私たちの運動制御能力を採用している

  • 50種類以上の、構造差が大きい脚式ロボット——二足、四足、車輪付き、異なる関節配置、異なる駆動方式——が、同じ運動学習・制御システムの上で動いている

  • 新しいロボットをハードウェア接続から最初の使える歩容を得るまでのエンジニアリング期間は、当初の「プロジェクト単位の人月」から「週単位」へと圧縮された

  • 本質は——新しい本体ごとに個別で一式システムを組むことが、私たちのところでは「一つのシステム + ツールチェーンによる新本体への自動適応」に置き換わったということです

この数字を挙げるのは、橋介の話をしたいからではありません。一つのことを伝えたいのです——

私たちは未来の物語を描いているのではありません。エンジニアリング上の事実によって、この分野の存在可能性を証明しているのです。

この層は実現可能です。抽象化できます。本体をまたいで再利用できます。すでに26社が実際に使っています。

ここまで来ると、もうPPT上の概念ではありません。エンジニアリング実践によって何度も検証された事実です——ただし今は、まだ「運動能力」という一本の柱に集中しているだけです。

Runtime Robot OS の完成形は、運動能力の一本だけではありません。しかし、一本の柱がエンジニアリングで実現可能だと証明されたことは、このシステム全体の実現可能性にとって最初の礎石が置かれたことを意味します。



エンド・エッジ・クラウド——完成形の3層

图片

ここから一歩進んで、もっと大きな全体像を話したいと思います。

私たちはエンド側の OS カーネルを作ってきました。しかし Runtime Robot OS の完成形は、エンド側だけではありません。

それには3層あります——

  • エンド側(On-device)

ミリ秒級のリアルタイム制御層です。すべてのロボットが物理世界の中で、安全に歩き、安定して動くことを可能にします。

これはロボットが「生きる」ための最低条件です。そして、今の橋介が取り組んでいる中心でもあります。この層はロボット本体上で完結しなければならず、ネットワークに依存できません——ネットワーク遅延はそのままロボットの転倒に直結するからです。

  • エッジ(Edge)

シーン単位の技能オーケストレーション層です。あるキャンパス、一本の生産ライン、一つの家庭にある複数のロボットが、協調して働くようにします。

この層はミリ秒級のリアルタイムは求めませんが、秒単位の協調は必要です。複数ロボット間のタスク配分、空間共有、能力補完——これはエンド側では完結せず(エンド側には全体視点がない)、クラウドでも完結しません(クラウドは遅延が大きすぎる)。それはエッジで行われます。

  • クラウド(Cloud)

本体をまたぐ能力の蓄積と継続学習の層です。各ロボットの経験を、すべてのロボットの能力へと変えます。

これが本当の「データフライホイール」です——ある家庭のロボットが冷蔵庫の開け方を学んだら、その能力は——安全性、プライバシー、所有権を守る前提のもとで——同型のすべてのロボットの共有能力になります。

この3層は、一つでも欠けてはなりません。 エンド側がなければロボットは物理世界で生き残れず、エッジがなければ群体シーンで協調できず、クラウドがなければロボットに本当の進化能力はありません。

この3層を完全な形で作り上げることが、Runtime Robot OS の完成形です。これは1〜2年の話ではなく、10年規模のエンジニアリングです。



新しいインフラ——OS + 計算ネットワーク

歴史には、これに対応するいくつかの影があります。

PC時代、新しいインフラは「OS + インターネット基幹網」でした——Windows / Linux に TCP/IP と光ファイバーネットワークを組み合わせ、アプリが世界中を流通できるようになりました。

モバイル時代、新しいインフラは「Android + 4G/5G」でした——統一されたアプリスタックに、数十億人を覆う無線ネットワークが加わり、モバイルインターネット全体が実現しました。

ロボット時代には、それはこう呼ばれるでしょう——

「Runtime Robot OS + 計算ネットワーク。」

これがロボット時代の新しいインフラです。

その2つの構成要素は、どちらも欠かせません:

  • Runtime Robot OS は「一台のロボットをどう安定・安全・継続的に動かすか」を解決する

  • 計算ネットワーク は「数百万、数千万台のロボットのエンド・エッジ・クラウドの3層計算資源を、どう統一的に調度し、統一的に編成し、統一的にサービスするか」を解決する

この2つを、どの一社も単独では完成できません。OS企業が自力で全国を覆う計算ネットワークを敷くことはできませんし、ネットワーク・計算基盤の提供者がゼロからロボット時代のランタイムOSを作ることもできません。

必要なのは——OS提供者と、ネットワーク・計算基盤提供者の深い協調です。

それはすでに起きています。私たちがあの講演の壇上に立ったのは、これがもはや願望ではなく、複数のプレーヤーによって推進されている、現実に進行中の産業プロセスだと信じているからです。

最後に:これは招待状です

講演の締めくくりに話した一節で、この文章を終えたいと思います。

計算パラダイムが変わるたび、歴史には必ず一度の Unix の瞬間が残されます——誰かが立ち上がり、断片をインフラに変えるのです。

メインフレーム時代にそう言った人がいて、Unix が生まれました。スマートフォン時代にそう言った人がいて、Android が生まれました。今日、ヒューマノイド時代には、私たちの世代がその言葉を口にする番です。

これは一社の話ではありません。完成機メーカー一社の話でもありません。通信事業者一社の話でもありません。チップメーカー一社の話でもありません。どこか一社だけの話ではないのです。

これは、一つの時代の始まりです。

これから数か月、私たちは自分たちの考え、自分たちの製品、自分たちのエンジニアリング実践を、一つひとつ業界に提示していきます。そして業界の仲間たちと一緒に議論し、ぶつかり合い、一緒にもっと良いものへ磨き上げていきます。

しかしそれ以上に重要なのは——

今日ここに書いたことは、結論ではなく、招待状だということです。

私たちは、ロボット業界を気にかけるすべてのエンジニア、研究者、起業家、投資家、政策立案者とともに——この時代にふさわしいOSのあるべき姿を、一緒に定義していきたいのです。

もしあなたも「断片はインフラに変わるべきだ」と信じるなら——

これが招待です。



尚陽星

橋介数物(BridgeDP)創業者 & CEO

2026年5月17日・深圳

著作権 © 2023 – 2026 橋介数物(深圳)科技有限公司 版权所有 

粤ICP备2023101324号-1

© 橋介数物|汎用ロボット“小脳”開発商

著作権 © 2023 – 2026 橋介数物(深圳)科技有限公司 版权所有 

粤ICP备2023101324号-1

© 橋介数物|汎用ロボット“小脳”開発商

著作権 © 2023 – 2026 橋介数物(深圳)科技有限公司 版权所有 

粤ICP备2023101324号-1

© 橋介数物|汎用ロボット“小脳”開発商