音声AIエージェントとは？海外プラットフォームと国産AI電話を比較して選ぶ【2026年版】

かかってきた電話に人の声で応答し、用件を聞き取り、予約や注文、折り返しの手配までこなす。こうした音声AIエージェントは、市場予測のうえでも導入の広がりが見込まれ、2026年時点では選べる顔ぶれが増えてきました。背景には、話し言葉の認識精度と応答速度がこの数年で実用域に近づいたこと、そして提供形態が二手に分かれて選びやすくなったことがあります。

担える仕事は受電にとどまりません。在庫や空き状況を確かめながらの予約・注文の受付、未払いの確認連絡、簡単なアンケートの聞き取り、本人確認の一次対応まで、これまで人が一件ずつ電話でこなしていた定型のやり取りを、昼夜を問わず肩代わりします。シナリオ化した範囲では応対のばらつきを抑えやすく、混み合う時間帯の取りこぼしも減らせます。ただし在庫や予約台帳、本人確認のように外部の仕組みと照合する用件では、システム連携や復唱確認、人への引き継ぎ、適用法令の確認が前提になります。

調査会社のITRは国内のボイスボット市場が2022〜2027年度に年平均35.9%で拡大すると見込み、矢野経済研究所もコールセンターAI関連サービス市場について2023〜2029年度に年平均31.7%の成長を予測しています。いずれも年に三割を超える伸びで、電話の一次受けを自動化したい店舗や中小企業から、大規模なコールセンター用途まで、想定される対象の幅は広がっています。人手不足が慢性化した受電・架電の現場にとって、同時通話の上限内とはいえ営業時間外やピーク時の取りこぼしを抑えられる仕組みは、単なる省力化以上の意味を持ちます。

ただ、ツールを探し始めるとすぐに壁にあたります。海外発の「自分で組み立てる開発基盤」と、国産の「申し込めばすぐ使える電話サービス」は、料金の見せ方も日本語の強さもまるで違います。ここでは両方を同じ物差しで並べ、手元の用途に合う一つを絞り込めるよう整理します。

仕組み：聞き取り・思考・発話・通話のリレー
従来の自動音声応答（IVR）と何が違うのか
大きく二つの系統に分かれる
海外の構築基盤を比較する
表示料金と実際の請求は別物（積み上がる部品費）
国産のAI電話サービスという選択肢
日本語対応の実態
導入前に詰めておきたい運用設計
用途から選ぶ
まとめ
導入のあと、運用するのは誰か
1. 参考資料

仕組み：聞き取り・思考・発話・通話のリレー

音声AIエージェントは、四つの処理が高速にバトンを渡し合って成り立っています。まず話し言葉を文字に起こす音声認識（STT）、次に内容を解釈して返答を組み立てる大規模言語モデル（LLM）、その返答を声に変える音声合成（TTS）、そしてこれらを電話網につなぐ通話基盤です。電話の向こうの一言に応答を返すたび、この四つを一周しています。

この一往復にかかる時間がレイテンシで、会話の自然さを大きく左右します。会話研究では、質問への応答までの間が数百ミリ秒程度に収まると報告されています。音声AIの低遅延表記は各社で測定点が異なり、発話終了から応答開始まで最短約600ミリ秒（Retell）、エンドツーエンドで典型約800ミリ秒・低遅延運用時の目標としてp50で500ミリ秒未満／p95で800ミリ秒未満（Vapi）などと案内されています。あくまで目安で、自然さは用途や割り込み処理、発話内容でも変わりますが、応答が速いほど人の会話に近づき、間が空くほど旧来の自動音声応答のようなぎこちなさが出ます。各段の処理時間は短くても四つを足し合わせると体感に響くため、プラットフォーム各社は一段ごとの数十ミリ秒を削ることに力を注いでいます。

会話を自然にするうえで、もう一つ効くのが割り込みへの対応です。人は相手の話の途中でも「あ、それで大丈夫です」と口を挟みます。これを受けて自分の発話を即座に止め、相手の言葉に切り替える処理が甘いと、機械的に話し続けてしまい一気に興ざめします。応答速度と並んで、この割り込み処理の質が完成度を分けます。

日本語ではさらに難所が増えます。同じ読みで意味の異なる語が多く、敬語や省略の多い言い回し、聞き取りにくい固有名詞や住所、数字の連続といった要素が、認識の精度を落とします。英語圏で高い評価を得たツールが、日本語の電話でそのままの実力を出せるとは限らない理由がここにあります。

四つの部品をどこまで自分で選び、どこまで任せるか。この一点が、次に見る二つの系統を分ける根っこになっています。

従来の自動音声応答（IVR）と何が違うのか

電話の自動化と聞いて、「1番を押すと営業時間のご案内、2番を押すと…」という旧来の自動音声応答（IVR）を思い浮かべる方も多いはずです。あれはあらかじめ用意したメニューを順にたどらせる仕組みで、かけた側は番号を押しながら目的の窓口を探します。用件がメニューになければたどり着けず、深い階層をたどるうちに切られてしまうことも珍しくありません。

音声AIエージェントは、ここを根本から変えます。番号を押させる代わりに「どうされましたか」と問いかけ、相手が自由に話した用件をその場で理解して応答します。「来週の金曜、三名で予約したいのですが」と言えば、日時と人数を聞き取って空きを確認し、必要なら折り返し先の電話番号まで尋ねる。メニューをたどる感覚がなく、人に取り次がれたときの会話に近づきます。

違いはメニューの有無だけではありません。旧来のIVRは想定した分岐しか返せませんが、音声AIエージェントは言い回しの揺れや、一度に複数の用件を告げられても文脈をたどって処理できます。一方で、決まった手続きだけを正確にさばきたい用途では、かえって旧来のIVRのほうが予測可能で安心という場面も残ります。すべてをAIに置き換えるのではなく、自由な聞き取りが効く場面を見極めて使い分けるのが現実的です。

大きく二つの系統に分かれる

音声AIエージェントは、提供のされ方で性格がはっきり分かれます。

系統	代表例	性格	料金の見え方	日本語
海外の構築基盤	Vapi / Retell / Bland / Synthflow / ElevenLabs	部品を選んで組み立てる。柔軟だが設計が要る	基盤料＋外部費用型と一括型に分かれる	構成依存（STT/TTS/LLM次第・実通話で検証）
国産の導入サービス	IVRy / AI Worker VoiceAgent / ミライAI ほか	即試用できる低価格型から個別設計型まで幅がある	初期費用と月額で読みやすい	日本語の電話業務前提（要通話テスト）

ざっくり言えば、海外勢は「作るための道具」、国産勢は「使うためのサービス」です。開発チームを抱えて独自の対話フローを作り込みたいなら前者、現場の電話を今月から軽くしたいなら後者、という分かれ方になります。どちらが上という話ではなく、目的との相性で決まります。独自要件が多い場合は海外基盤の柔軟さが効く一方、定型的な電話業務なら国産サービスの既成機能で足りることもあります。設計・検証の工数を引き受けられるかどうかが現実的な分岐点です。

海外の構築基盤を比較する

まず、開発者が部品を組み合わせて作るタイプを並べます。共通するのは、対話の作り込みやモデルの差し替えが自由な反面、電話番号の手配やコスト管理まで自分の責任になる点です。

ツール	表示料金の目安	組み立てスタイル	遅延の公開値（測定点）	向くケース
Vapi	$0.05/分〜（基盤料・別途at cost）	モデルも音声も自分で選ぶ自由度の高い土台	E2E 典型約800ms（目標p50<500/p95<800）	独自フローを細部まで作り込む開発チーム
Retell AI	$0.07〜0.31/分（構成依存）	受け答えの間合いの良さに寄せた設計	発話終了→応答約600ms〜	予約受付や折り返しなど受電中心
Bland AI	$0.11〜0.14/分＋月額（プラン別）	必要な機能を一通り内包したオールインワン	構成依存	大量の同時発信（同時10〜100・日次上限あり）
Synthflow	PAYGは多く$0.15〜0.24/分（Voice Engine$0.09＋LLM＋回線＋アドオン）。BYOは外部請求を含む総額で要確認	ノーコードで画面から組める	低遅延は有料アドオン(<600ms)	開発者を置けない非技術チーム
ElevenLabs	無料〜Business $990/月（追加通話$0.08/分・LLM/回線は別途at cost）	音声合成・音声認識（Scribe）・会話AIを提供	Flash系TTS推論で約75ms（通話全体・回線は別）	声質重視（日本語の聞き取り・数値読み上げは実通話で要検証）

料金・応答速度は2026年6月下旬時点の各社公開情報に基づく目安で、構成・通話量・為替で変わります。海外基盤でも料金構造は分かれます。Vapi・Retell・ElevenLabs Agents・Synthflowの一部構成では、基盤・音声認識・音声合成・言語モデル・電話回線・追加機能の選択によって総額が変わります。一方、Bland AIのようにLLM・STT・TTS・電話回線を分単価に含むタイプは総額を読みやすい反面、転送時間料やSMSなどの追加費は別途確認が必要です。各社の「含まれる費用」と外部への直接請求は個別に確認してください。同時通話数や日次の発信上限もプランで異なります。遅延は測定点が各社で違うため、本表は公開値とその測定点（E2E＝全体／発話終了→応答／TTS単体）を併記しています。

Vapiは、使う言語モデル（GPTやClaude、Geminiなど）も音声の声色も自分で選べる、自由度の高い土台です。2026年5月には5,000万ドルの資金調達を発表し、累計の通話処理は10億件を超えたと公表しています。電話番号の取得、音声認識と音声合成の選択、対話の分岐まで細かく握れる反面、設計の手間は大きく、後述するコストの見えにくさも持ち合わせます。作り込めば作り込むほど自社の業務にぴたりと合わせられるのが魅力です。

Retell AIは、相手が話し終えたタイミングを読む「間合い」に寄せた設計で、公式は約600ミリ秒の低遅延やターンテイキング、フロー作成機能を掲げています。予約の受付や電話の取り次ぎといった受電業務で使われ、受け答えのテンポが整っているのが持ち味です。Bland AIは同時に大量の発信をさばく規模感が持ち味で、リストへ次々と架けるアウトバウンドの営業電話に向きます。Synthflowはノーコードの画面で対話フローを組み立てられるため、開発者を置けないチームでも扱えます。海外基盤の柔軟さは欲しいが手を動かすエンジニアがいない、という隙間を埋める位置づけです。ElevenLabsはもともと音声合成で知られ、現在はScribe v2として90以上の言語の音声認識も提供します。自然な声をそのまま会話AIに使える点が強みで、声のブランド体験を重視する用途で選ばれます。

表示料金と実際の請求は別物（積み上がる部品費）

海外の構築基盤でつまずきやすいのが料金です。Vapiの「$0.05/分」のような表示価格は、あくまで土台の利用料にすぎません。実際の通話では、言語モデルの利用料、音声認識と音声合成の料金、電話回線の費用が上に積み重なります。

Vapiのような基盤では、音声認識・言語モデル・音声合成を実費（at cost）で通す構成と、自前のAPIキーを持ち込むBYOK（Bring Your Own Key）構成があります。基盤の利用料は$0.05/分で、BYOKを選ぶとその部品費は基盤側では0円になる代わりに、持ち込み先のプロバイダから直接請求されます。どちらの構成でも表示の分単価だけでは総額にならないため、公式の料金計算か自社の構成で見積もらないと、表示価格だけで立てた予算は運用段階で崩れがちです。

一方、Blandのように通話基盤・音声処理・モデル費用をまとめた一括料金に近いタイプは、分単価そのものは高めでも総額を読みやすいという長所があります。Synthflowのようなノーコード型も導入はしやすい一方、Voice EngineやLLM、電話回線、低遅延オプションなどが積み上がるため、最終的な分単価は構成ごとに確認する必要があります。逆に通話量が大きく振れる用途では、部品ごとに最適化できるBYOK型がコスト面で効いてきます。いずれにせよ見積もりは「土台＋モデル＋音声＋回線」の合計で立て、想定する月間通話分数を掛けて初めて現実の数字になります。

国産のAI電話サービスという選択肢

海外の自由度に対し、国産サービスは「申し込めばすぐ電話に出てくれる」手軽さで対照的です。日本語の聞き取りを前提に設計され、電話業務に絞り込まれている点が共通します。低価格・即試用型のサービスなら、組み立ての工数を抑えやすいのが利点です。

サービス	初期/月額の目安	特徴	向くケース
IVRy（アイブリー）	初期0円／月3,980円〜（年払い月3,317円〜）＋番号維持費・従量料	フリーは30着電まで0円。最短1分で利用開始、録音・文字起こし・要約まで内包	代表電話の一次受けを軽くしたい店舗・中小企業
AI Worker VoiceAgent （旧AI Messenger Voicebot）	要問い合わせ	発話から用件を読み取り曖昧な言い回しも処理。問い合わせ・予約・注文などコールセンター業務の自動化に向く	予約・注文受付を抱えるコールセンター
ミライAI	月4,980円〜（税別）＋会話時間料・取次転送料・番号料等（初期費用は要確認）	担当者名を聞き取り、アプリや指定番号へ取り次ぐ自動化に強み。テンプレートや会話フローを設定できる	取り次ぎ業務の多いオフィス

料金は2026年6月下旬時点の各社公開情報に基づく税抜の目安で、電話番号の維持費や従量の通話料は別途かかります。プランや時期で変わります。

IVRyは初期費用なしで始められ、公式では最短1分で利用開始、30着電まで無料と案内されています（番号取得や転送、本人確認などで実運用開始までの時間は変わります）。通話の録音から文字起こし、要約までを一通り含み、まず一次受けを自動化したい現場に向きます。全国の幅広い業種で使われており、小規模な店舗でも導入の敷居が低いのが特徴です。AI Worker VoiceAgentはサイバーエージェントグループが手がける電話特化のサービスで、相手の曖昧な言い回しからも用件をくみ取り、予約や注文の受付をさばきます。公式サイトでは会話のやり取りやオペレーター工数の削減、短時間での大量処理といった導入事例が示されており、規模のある受電業務で力を発揮します。ミライAIは、かけてきた相手が告げた担当者名を聞き取って本人の携帯やPCへつなぐ取り次ぎの自動化に強く、月数千円台のプランから試せます。

より大きな規模では、コールセンター全体の自動化を見据えたサービスもあります。問い合わせ対応の知識基盤と組み合わせるタイプや、ビジネスチャット連携で社内の電話導線をまとめるタイプなど、大規模向けの個別見積もり型サービスも国内にあります。代表電話の一次受けから大規模コールセンターまで、用途の段階に応じて国産だけでも候補が組めます。

日本語対応の実態

海外ツールを日本語で使うとき、見落としやすいのが、聞き取り（音声認識）と読み上げ（音声合成）が別々の部品で、それぞれ対応言語や精度が違うという点です。たとえばElevenLabsは日本語を含むTTSモデルに加え、90以上の言語に対応するScribe v2の音声認識も提供しており、かつてのようなTTS専業ではありません。とはいえ、どの部品をどう組み合わせるかで日本語の仕上がりは変わるため、声は自然でも聞き取りでつまずく、といった偏りは起こり得ます。

Vapiのような構築基盤は多言語のエージェントを組めますが、日本語の精度は組み合わせる音声認識・音声合成・言語モデルに左右されます。とりわけビジネス特有の固有名詞や住所、数字の連続は取り違えが起きやすく、本番に乗せる前に実際の通話で個別に確かめておく必要があります。海外基盤を日本語で運用する場合、聞き取れなかったときの聞き返しや、聞き違えたくない情報の復唱をどう設計するかが、そのまま現場での使いものになるかどうかに直結します。

国産サービスは日本語の電話業務を前提にした機能を掲げるものが多く、その点で扱いやすさがあります。とはいえ固有名詞や住所、数字、騒音の多い環境では取り違えも起こるため、本番前の通話テストは欠かせません。逆に、英語や多言語での発信を主にするなら海外基盤のほうが選択肢は広がります。

導入前に詰めておきたい運用設計

ツールの性能差と同じくらい、運用の設計が完成度を決めます。とりわけ次のような点は、契約前に詰めておかないと現場でトラブルに直結します。

人への引き継ぎ（エスカレーション）。AIが処理しきれない用件や込み入った相談は、必ず人へつなぐ経路を用意します。ここが甘いと、解決できないまま会話が堂々巡りになり、かえってクレームを生みます。どの条件で誰に引き継ぐかを最初に決めておくのが安全です。

誤認識への備え。前述のとおり日本語の認識は完璧ではありません。電話番号や金額、予約日時といった取り違えると困る情報は、復唱して確認する流れを挟みます。聞き取れなかったときに自然に聞き返す設計があるかどうかで、利用者の印象は大きく変わります。

録音と個人情報の扱い。通話内容から個人を識別できる場合、録音データは個人情報にあたり得ます。個人情報保護法では利用目的の通知または公表が求められますが、録音している事実そのものを必ず伝える義務まではない、と個人情報保護委員会は説明しています。もっとも実務では、行き違いを避けるために「品質向上のため録音します」と先に告げる設計が無難です。あわせて、音声データをどこに保存し、どこで処理するかはサービスごとに異なります。海外基盤の多くは国外のサーバーを経由しうるほか、国産サービスでも内部で海外のモデルやクラウドを使う場合があります。顧客情報を扱うなら、録音・文字起こし・要約・AI処理の利用目的、保存期間、委託先、国外での処理や保存の有無を、契約前に提供元へ確認しておくのが確実です。

障害時のフォールバック。AIが応答できない事態に備え、人間の窓口や留守番電話へ転送する退避経路を用意します。完全自動を狙うほど、止まったときの代替を先に決めておくことが効いてきます。応答できずに鳴りっぱなしになる事態だけは避けたいところです。

用途から選ぶ

最後に、手元の状況から逆引きで絞り込みます。

代表電話の一次受けを今月から軽くしたい：IVRyのような即導入型。日本語前提で短時間に試せますが、本番運用までは番号取得・本人確認・転送設定・シナリオ設計で変わります。
予約や注文の受付を自動化したい：AI Worker VoiceAgentのような電話特化サービス。曖昧な発話の処理に慣れています。
取り次ぎの多いオフィス：ミライAIのように担当者へのつなぎを自動化するタイプ。
大量の発信をかけるアウトバウンド営業：Bland AIのような同時通話の規模に強い基盤。ただし営業電話や未払いの確認連絡には、発信先リストの取得根拠、勧誘目的・事業者名・担当者名の冒頭明示、拒否した相手への勧誘継続・再勧誘の停止、書面交付やクーリング・オフの適用有無など、特定商取引法をはじめとする適用法令やキャリアの規約を事前に確認しておく必要があります。
独自の対話フローを細部まで作り込みたい開発チーム：VapiやRetell。自由度と引き換えに設計とコスト管理を引き受けます。
声の自然さを最優先したい：ElevenLabsの音声を組み合わせる構成。

判断の入り口は「作るか、導入するか」です。社内に開発の手があり対話を作り込みたいなら海外基盤、現場の電話負担をすぐ下げたいなら国産サービス。そのうえで、日本語精度の要求度、料金の読みやすさ、想定する通話量を重ねていくと、候補は自然と一つか二つに絞れます。小さく一つの業務で試し、手応えを見てから広げる進め方なら、選定の失敗も取り返しがつきます。導入後も、聞き取れなかった通話の録音やログを見直し、FAQやシナリオ、読み間違えやすい語句の辞書、聞き返しの文言を調整していくと、応答の質は運用のなかで上がっていきます。最初から完璧を狙うより、走らせながら整える前提で選ぶほうが、結果的に早く戦力になります。

まとめ

音声AIエージェントは、海外の構築基盤と国産の導入サービスという性格の異なる二系統に分かれています。前者は部品を選んで組み立てる自由度が魅力で、後者は日本語前提の手軽さと料金の読みやすさが強みです。表示される分単価だけで比べると海外基盤が安く見えますが、実際の請求は各部品の積み上げで膨らむため、総額で見積もる姿勢が欠かせません。そして性能と同じだけ、人への引き継ぎや誤認識への備えといった運用設計が仕上がりを決めます。手元の用途と日本語の要求度を起点にすれば、候補は絞り込みやすくなります。

導入のあと、運用するのは誰か

ツールが決まっても、それを日々動かすのは人です。音声AIエージェントは入れて終わりの道具ではなく、録音を見直して言い回しを調整し、聞き取れなかったパターンを拾って受け答えを足していく、地道な手入れで精度が育ちます。誰がその役を担うのかを最初に決めておくと、導入後に宙に浮きません。誰が使い、誰が手入れするのかという視点で、もう一度ツールを眺めてみます。

一人で店や事務所を切り盛りする個人事業主なら、国産の即導入型を選び、通話量が多くなければ、空いた時間に通話の記録へ目を通して気になった応答を直す程度の軽い関わり方でも回せます。手を動かすエンジニアは要らず、管理画面から文言を差し替えられる範囲で育てていけます。電話に出られず取りこぼしていた問い合わせを拾えるだけでも、一人で回す事業には効きます。

中小企業で受電の負担を減らしたい場合は、総務や受付の担当者が一人、監督役を兼ねる形が現実的です。AIが処理しきれない用件を誰に回すか、その引き継ぎ先を自分たちの業務に合わせて設定し、通話量や業務のリスクに応じた頻度で応答の質を点検します。専任を置くほどではないが放置もしない、という距離感が合います。導入時に対話の流れを一度作り込んでおけば、あとは例外的なパターンを足していくだけで馴染んでいきます。

コールセンターのように規模が大きく、応答品質を数値で管理している現場では、専任のチームが応答ログをレビューし、改善を継続的に回します。ここまで来ると、海外の構築基盤を選んで対話フローを細かく作り込む選択肢も現実味を帯びます。逆に、社内に開発の手があるスタートアップなら、エンジニアがVapiやRetellを土台に自社の業務へ作り込み、コードで対話を管理しながら運用する形になります。運用の手間を引き受けられるチームがあるほど、海外基盤の自由度は武器になります。

裏返せば、運用の担い手と引き継ぎの設計を決めずに導入すると、せっかくのAIが誰も面倒を見ない電話番になりがちです。専任を置けるのか、片手間で見るのか、エンジニアがいるのか。点検の頻度も、通話量や誤認識が起きたときの損害の大きさに見合わせて決めるのが現実的です。手元の体制を起点にツールを選ぶと、導入後のつまずきはかなり減らせます。どのツールが優れているかより、どのツールなら自分たちが回し続けられるかで考えると、選択を誤りにくくなります。