Claude Code vs OpenAI Codex のスキル機能比較|34,000件研究が示す「効果の脆さ」と選び方

Claude Code vs OpenAI Codex 徹底比較!AIエージェントの「スキル」機能はどっちを選ぶべきか アイキャッチ AIエージェント

AIエージェントの「スキル」とは、タスクごとに呼び出せるモジュール型の指示書である。

この記事の要点

  • AIエージェントのスキル機能は、約34,000件を対象にした研究で「現実条件では効果が脆い」と報告された(製品比較ではなくスキル一般の検証)
  • 一部のモデルでは、ノイズの多い候補から探す厳しい条件でスキルがかえって逆効果になった
  • 選び方は「スキル制御の細かさ」「既存環境との接続しやすさ」「スキルの配置・配布のしやすさ」で決まる

Claude Code と OpenAI Codex は、どちらも SKILL.md を核にした Agent Skills の仕組みを採用している。製品としての向き不向き——タスクを小さく切り出せるチームか、広い開発工程を任せたいチームか——は後半で整理するが、その前に押さえておきたい研究がある。UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Lab の研究チームが約34,000件のスキルで検証したところ、ベンチマークで華々しく見えるスキル機能は、現実条件に近づけると効果が大きく縮んだ。これは特定の製品の優劣を示すものではないが、スキルを自律選択させる運用すべてに共通する注意点として効いてくる。この点を踏まえたうえで、どちらをどう選ぶべきか整理していく。

Claude Code vs OpenAI Codex:一目でわかる比較表

まずは両者の基本仕様を並べます。スキルの形式や自動選択のしくみはほぼ共通で、差が出るのは「どこにスキルを置き、どう呼び出しを制御するか」という運用面です。優劣ではなく、機能と運用条件の違いとして見てください。

項目 Claude Code OpenAI Codex
提供元 Anthropic OpenAI
代表モデル(2026年6月時点) Claude Opus 4.8/Sonnet 4.6/Haiku 4.5 GPT-5.5、GPT-5.4-mini など
Agent Skills 対応の発表 2025年10月 2025年12月
スキルの形式 SKILL.md を核にしたフォルダ(参照資料・スクリプトを同梱可) SKILL.md を核にしたフォルダ(参照資料・スクリプト・アセットを同梱可)
呼び出し 自動選択、または明示呼び出し(/スキル名) 自動選択、または明示呼び出し($スキル名)
自動呼び出しの制御 自動呼び出しの無効化、ユーザー呼び出しの可否、対象パス(paths)、サブエージェント実行などを設定可能 暗黙呼び出しの有効・無効、スキルの有効化、リポジトリ/ユーザー/管理者/システム単位の配置などを設定可能
選定時に見る点 権限設定・サブエージェント・クラウド接続との整合性 CLI/IDE/Codexアプリ、OpenAI環境、スキル配置スコープとの整合性
共通の注意点 候補の説明文の明確さ、検索・選択の設計、自社タスクでの「スキルあり/なし」比較が成果を左右する

見てわかる通り、スキルの形式と自動選択のしくみ自体はほぼ同じ。違いが出るのは、呼び出しをどこまで細かく制御できるか、どの単位でスキルを配置・配布できるか、そして既存の認証・課金・IDE・クラウド環境にどちらが自然に接続できるか——という運用面です。たとえば Claude Code は paths で対象ファイルに応じた自動読み込みを絞れ、自動呼び出し自体も止められます。Codex も暗黙呼び出しを無効化でき、作業ディレクトリ・リポジトリルート・ユーザー・管理者・システム単位でスキルを配置できます。

なお、この比較表は各社の公式仕様にもとづく機能・運用の違いを整理したもので、どちらが優れているという優劣評価ではありません。後述の研究も、両製品を直接比較したものではありません。

AIスキル機能の実態——34,000件研究が示したこと

スキル機能とは何か、そしてその効果がどこまで本物なのか。2026年4月、The Decoder が報じた研究結果を見ていきましょう。

スキル機能の基本設計

スキルは、ワークフローやAPI利用パターン、作業手順などを SKILL.md にまとめ、必要に応じてスクリプトや参照資料を同梱したフォルダです。AIエージェントがタスクを処理するとき、説明文をもとに必要なスキルを自分で選び、参照しながら作業を進める仕組み。Anthropic が2025年10月に Agent Skills を発表して先行し、OpenAI Codex をはじめとした各種プロダクトが追従しました。

構想としては美しい。人間の新人エンジニアが業務マニュアルを読みながら仕事を覚えるように、AIエージェントもスキルファイルを参照することで、その組織特有の手順を身につけられる——これが当初の期待でした。

34,000件検証で見えた「脆さ」

UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Lab の研究チームは、MIT/Apache 2.0 ライセンスで公開された約34,000件(34,198件)の実用スキルを集め、効果を検証しました。査読前の論文ではありますが、結論は研究者自身の言葉を借りれば「fragile(脆い)」というものです。

何が脆いのか。既存のベンチマーク「SKILLSBENCH」では、タスクに最適なスキルをあらかじめエージェントに渡す設計になっていました。たとえば USGS 観測所の洪水日を特定するタスクに対して、水位データのダウンロード用API、洪水閾値の参照URL、判定コードの雛形まで手渡される。これではほとんど答えを教えているのと同じ。

研究チームはこの設定をより現実に近づけ、ノイズの多い大量のスキル候補からエージェント自身が選び出す条件に変更しました。すると、効果は急速に縮小。研究で Claude Code とともに検証された Claude Opus 4.6 では、最適なスキルを強制的に読み込ませた上限条件の55.4%から、人手作成スキルを除いた約34,000件から検索させる条件では38.4%まで下がりました。スキルなしの35.4%と比べればまだ3ポイントほど高く、「効果が消える」のではなく、「選択・検索・適応の失敗で利益が大きく縮む」というのが正確な読み方です。

モデルによってはスキルが逆効果になる

さらに、モデルによってはスキルを与えると性能が下がる逆転も起きました。最も厳しい条件——人手作成スキルを除いた約34,000件から検索させる設定——では、Kimi K2.5 がスキルあり19.8%・なし21.8%、Qwen3.5-397B がスキルあり19.7%・なし20.5%と、いずれもスキルを足したほうが低いスコアに。ただしこれは「能力の低いモデルでは常に逆効果」を意味しません。同じモデルでも、最適なスキルを渡した条件ではスキルなしを大きく上回っており、しかも各モデルは別々のエージェント(Claude Code/Terminus-2/Qwen-Code)で動かされているため、差をモデルの強弱だけに帰すこともできません。

理由は推測の域を出ませんが、ノイズを含む大量の指示書の中から適切なものを選び、内容を正しく解釈し、現在のタスクに当てはめる——この一連の処理に、一定以上の文脈処理能力が要求されると考えられます。能力が足りないモデルは、関係ないスキルを拾って迷走したり、手順を誤読して余計なステップを踏んだりするわけです。

この現象は、AIエージェントの成否がモデルそのものよりも「どんな情報をどう渡すか」というコンテキストの設計に左右される、という近年繰り返し指摘されてきた論点とも重なります。能力に余裕のないモデルほど、無関係なスキルの読み込みや誤読にリソースを取られやすいわけです。

スキル機能は「与えれば性能が上がる」と単純化できない。研究では、ノイズの多い大量の候補から探す条件で、モデルによっては精度がむしろ下がった。導入前に必ず自社環境で比較検証を行ってください。

Claude Codeのスキル機能を掘り下げる

ここからは個別のツールを見ていきます。まずは Claude Code から。

設計方針:小さく始めて組み合わせる

Claude Code のスキル機能は、個別のタスクに紐付いた小さな指示書を積み上げる設計。エージェントが作業中に「このタスクには○○のスキルが必要」と判断すると、該当ファイルを引き出して参照します。2026年6月時点では、Opus 4.8(1Mトークン対応)、Sonnet 4.6、Haiku 4.5 の3グレードから選べます(実際に使えるモデルやデフォルトは契約プラン・接続先によって変わります)。

先に公開された分、運用例やノウハウは見つけやすい状況です。Anthropic の公式情報でも Claude Code 向けのスキル運用例が示されており、導入時の手がかりにできます。

強みが出るシーン

この設計が光るのは、タスクの切り分けが明確なケース。たとえば「このリポジトリのテストは必ず pytest で実行する」「API キーは環境変数から読み込む」といった、ルールがはっきりしている作業。小さなスキルファイルが的確に呼び出されれば、エージェントの挙動が安定します。

逆に、複数の業務領域をまたぐ複雑な作業では、スキル選択が外れるリスクが上がる。検証研究が示した「ノイズ耐性の問題」が、ここで顔を出します。

運用のコツ

スキルファイルは1つに詰め込みすぎないほうが吉。機能ごとに細かく分け、説明文を明確にすることで、エージェントの選択精度が上がりやすい。研究の教訓を踏まえると、「渡すスキル候補の数を絞る」運用が現実的です。Claude Code では、スキルを置くディレクトリやファイルパターンで呼び出し範囲を絞れるほか、自動呼び出しのオン・オフも制御できるため、候補が無闇に増えない設計にしておくと効きます。なお、上位モデルを使えば自動的に解決するわけではありません。説明文の品質・検索設計・スキルの粒度・不要な候補を除外する仕組みのほうが効くことも多く、導入時は同じタスクでスキルあり・なしを比較して判断するのが確実です。

OpenAI Codexのスキル機能を掘り下げる

続いて OpenAI Codex のスキル機能。Claude Code に追従する形で導入された経緯があります。

設計方針:既存プロダクト群との統合

OpenAI Codex のアプローチは、OpenAI の他のサービスと統合しやすい設計。既に GPT 系モデルや API を使っている組織なら、追加の学習コストが比較的低く済むのが利点。

スキルの基本形式は Claude Code と同様、SKILL.md を核にしたフォルダ。エージェントがタスクに応じて選び、参照する流れも共通しています。

強みが出るシーン

OpenAI Codex が真価を発揮するのは、開発工程全体を横断するような広めのタスク。コード生成からテスト、デプロイ周辺の補助まで、幅広く手を伸ばしたい場合に向いている印象。

ただし、広範なタスクを扱うほど、必要なスキル候補も増える。研究が示すのは「候補が多いこと自体が問題」というより、候補の中から自律的に選び、検索し、タスク向けに適応する負荷が増えるほど効果が縮みやすい、という点です。これは特定の製品の話ではなく、スキルを自律選択させる運用全般に当てはまります。候補数だけでなく、説明文の明確さ、検索方法、タスクとの適合度、不要なスキルを除外する設計が成果を左右します。

運用のコツ

候補が多い環境では、ノイズの多い候補から適切なスキルを選び・解釈する処理には、それなりの文脈処理能力が要る——というのが研究の示唆です。ただしこの研究は Codex を直接測ったわけではないので、最終的には自社タスクでの計測が前提になります。自社の代表タスクで、コスト当たりの成功率・再試行回数・レビュー工数を測り、モデルのグレードを決めるのが確実です。

スキル機能を試すときは、まず「スキルあり」と「スキルなし」を同じタスクで必ず比較計測してください。ベンチマーク上の数字と自社環境の成果は別物。研究結果が証明したのは、まさにそのギャップです。

用途別:どちらを選ぶべきか

ここまでを踏まえると、選び方の軸は「スキルの制御をどこまで細かくしたいか」「既存の環境(認証・課金・IDE・クラウド)にどちらが自然に接続できるか」「どの単位でスキルを配置・配布したいか」です。以下の条件を自分の現場に当てはめてみてください。

Claude Codeを選ぶべき人

Claude Codeが向く条件 – タスクの切り分けが明確で、個別ルールを細かく記述できるチーム – 小さなスキルファイルを積み上げて運用する体制を作れる組織 – Anthropic のエコシステムを活用したい開発現場 – スキル選択の精度を検証しながら段階的に広げたいケース – 長文の設計書や大量の既存コードを丸ごと扱いたい場合(Opus 4.8 は1Mトークンの文脈に対応。ただし実際にどこまで使えるかは契約プランや利用面で変わるため要確認)

Claude Code はスキルごとに自動呼び出しの可否・対象パス・ツール権限・サブエージェント実行まで細かく制御でき、個別のスキルファイルを丁寧に作り込む運用スタイルに向いています。検証研究が示した「選択・検索・適応が難しくなると効果が縮む」という問題に対しても、候補を絞る運用で備えやすい設計です。

OpenAI Codexを選ぶべき人

OpenAI Codexが向く条件 – すでに OpenAI の API やサービスを業務に組み込んでいる組織 – 開発工程を横断する幅広い作業を1つのエージェントに任せたいケース – 文脈処理能力の高い上位モデルを使える予算があるチーム – スキル機能と他の OpenAI プロダクトを連携させたい現場

OpenAI Codex は既存の OpenAI 環境との統合が利点。幅広いタスクを1つのエージェントで処理させたい場合に適しています。ただし、扱う範囲が広いほどスキル候補も増えるため、候補を絞る設計と、文脈処理に余裕のあるモデル選びはどちらの製品でも欠かせません。

どちらも「そのまま使ってはいけない」という共通点

両ツールに共通する前提として、スキル機能は導入前に必ず自社タスクで比較検証することをおすすめします。なお、ここで引用してきた研究は Claude Code と OpenAI Codex の優劣を直接比較したものではなく、スキルを自律選択させる運用全般に当てはまる注意点を示したものです。ベンチマーク上の数字と現実の効果は別物——小規模なパイロット運用で「スキルあり vs スキルなし」を計測し、自社タスクで本当に効くかを確かめてから本格導入に進むのが、合理的な進め方です。

Claude Code提供元 Anthropic
Claude Code 主力モデル Opus 4.8(1M)/Sonnet 4.6/Haiku 4.5(2026年6月時点)
OpenAI Codex提供元 OpenAI
スキル機能の形式 SKILL.md を核にしたフォルダ(両者共通・スクリプトや参照資料を同梱可)
検証研究の実施主体 UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Lab
検証対象スキル数 約34,000件(34,198件)
研究の主な結論 現実条件下では効果が脆い(製品比較ではなくスキル一般の検証)。一部モデルでは逆効果のケースも

よくある質問

Q. AIエージェントの「スキル」とは何ですか?

AIエージェントが作業中に呼び出せるモジュール型の指示書です。ワークフローやAPI利用手順などを SKILL.md にまとめ、必要に応じてスクリプトや参照資料を同梱したフォルダ形式。Anthropic が2025年10月に Agent Skills を先行発表し、OpenAI Codex などが追従しました。

Q. 無料で使えますか?

スキル機能は Claude Code・OpenAI Codex それぞれの機能の一部で、単体で課金されるものではありません。利用にはおおむね各サービスの契約(Claude のサブスクリプションや Console アカウント、Codex は ChatGPT の各プラン等)が前提になります。料金体系は変動が大きいため、最新の条件は各社の公式料金ページで確認してください。

Q. 日本語対応はどうなっていますか?

SKILL.md はテキストベースの形式なので、日本語で指示や説明を書くこと自体はできます。ただし、スキルの自動選択は説明文(description)との一致に依存するため、日本語の説明文で狙ったスキルがきちんと呼び出されるかは、自社の実タスクで確認してください。公式ドキュメントやコミュニティ事例は英語のものも多く、ノウハウ収集では英語資料にあたる場面も出てきます。

Q. 自社で試すには何から始めるべきですか?

まずは小さなタスクを1つ選び、「スキルあり」と「スキルなし」で同じ作業を走らせて結果を比較してください。34,000件研究が示したのは、ベンチマークと現実のギャップ。自社タスクでの実測が導入判断の土台になります。

Q. 弱いモデルでも使えますか?

スキルの有効性は、モデル名だけでは決まりません。候補スキルの数、説明文の明確さ、検索のしかた、タスクとの適合度、検証体制によって変わります。実際、研究では一部のモデルで、ノイズの多い候補から探す条件のときにスキルが逆効果になりました。まずは同じモデル・同じタスクで「スキルあり/なし」を比較し、成功率・再試行回数・実行時間・レビュー工数を計測するのが確実です。コストを抑えたいなら、スキルを使わない構成から試すのも一つの手です。

まとめ:選定の軸はここ

改めて整理します。Claude Code と OpenAI Codex のどちらが適するかは、「スキルをどこまで細かく制御したいか」「既存の認証・課金・IDE・クラウド環境にどちらが自然に接続できるか」「チームがどの配置・配布方法を管理しやすいか」で決まります。スキルごとに自動呼び出しの可否・対象パス・ツール権限・サブエージェント実行まで細かく制御したいチームは Claude Code を、リポジトリ・ユーザー・管理者単位でのスキル配置や、Codex の CLI・IDE・アプリとの運用統合を重視するチームは OpenAI Codex を検討しやすいでしょう。

ただし、どちらを選んでも「スキル機能を入れれば性能が上がる」という素朴な期待は捨てる必要があります。UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Lab の研究が約34,000件のスキルで検証した通り、効果はベンチマークほど大きくはなく、条件次第では逆効果にすらなる。この点を理解したうえで、小さく始めて比較検証しながら広げていくのが、2026年6月時点で最も合理的な導入アプローチ。

まずは1つのタスクを切り出し、スキルありとなしで計測してみてください。自社のタスクで本当に効くかどうか——その答えは、ベンチマークの中ではなく、あなたの手元の検証結果の中にあります。

Claude Code を実際の自動化に組み込む具体例は、以下も参考になります。

参考資料

本記事は AIツール図鑑編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました