Skip to content

自然な会話を実現するAI音声モデル、OpenAIなど大手から特化型企業まで激戦区に(AMP[アンプ])

音声AIモデルが生成する音声は、人間に非常に近いものの、抑揚や感情表現でどこか不自然さが残るものだった。

しかしこの数カ月間で、各社の音声AIモデルは目を見張る進化を遂げており、コールセンターなどで活用するケースがさらに拡大しつつある。

直近の動きとして注目されるのは、ChatGPTで知られるOpenAIの取り組みだ。同社は2025年3月、3つの新しい音声AIモデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」「gpt-4o-mini-tts」を発表した。これらのモデルは、APIを通じてサードパーティの開発者に提供される。OpenAI.fmというデモサイトで利用可能となっており、誰でも音声モデルのクオリティを確認することが可能だ。

OpenAIは、同モデルの普及を見据え、既存のテキストベースのアプリケーションに簡単に統合できる仕組みを採用。同社によると、わずか9行のコードで音声インタラクションを実装できるという。たとえば、GPT-4oを基盤とするEコマースアプリで、「前回の注文内容を教えて」といった音声での問い合わせに対応できるようになる。

これらのモデルは、OpenAIが2024年5月に発表した「GPT-4o」がベースとなっている。GPT-4oに、より多くの音声データを学習させることで、音声認識と音声生成に特化したモデルに進化させた。OpenAIのテクニカルスタッフ、ジェフ・ハリス氏によると、このモデルは雑音を除去する機能と、会話の自然な区切りを認識する機能を備えている。これにより、話者がいつ発言を終えたのかを正確に判断でき、文字起こしの精度が大幅に向上したという。
同社の発表によると、gpt-4o-transcribeは33の言語で従来のWhisperモデルよりも低いエラー率を実現。英語では2.46%という高精度を達成した。また、雑音のある環境でも安定したパフォーマンスを発揮し、さまざまなアクセントや発話速度にも対応可能としている。

市場では早くも反響を呼んでいる。不動産管理の自動化を手がけるEliseAIは、OpenAIの音声モデルを導入することで、入居者とのやり取りがより自然で感情豊かなものに改善されたと報告。入居者の満足度向上と通話解決率の改善につながったという。また、AI音声体験を構築するDecagonは、文字起こしの精度が30%向上したと述べている。

料金は、gpt-4o-transcribeが100万トークン(オーディオ入力)あたり6ドル(1分あたり0.006ドル)、gpt-4o-mini-transcribeが100万トークン(オーディオ入力)あたり3ドル(1分あたり0.003ドル)、gpt-4o-mini-ttsが100万トークン(テキスト入力)あたり0.60ドル、音声出力100万トークンあたり12ドル(1分あたり0.015ドル)となっている。

音声AIモデルが生成する音声は、人間に非常に近いものの、抑揚や感情表現でどこか不自然さが残るものだった。

しかしこの数カ月間で、各社の音声AIモデルは目を見張る進化を遂げており、コールセンターなどで活用するケースがさらに拡大しつつある。

直近の動きとして注目されるのは、ChatGPTで知られるOpenAIの取り組みだ。同社は2025年3月、3つの新しい音声AIモデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」「gpt-4o-mini-tts」を発表した。これらのモデルは、APIを通じてサードパーティの開発者に提供される。OpenAI.fmというデモサイトで利用可能となっており、誰でも音声モデルのクオリティを確認することが可能だ。

OpenAIは、同モデルの普及を見据え、既存のテキストベースのアプリケーションに簡単に統合できる仕組みを採用。同社によると、わずか9行のコードで音声インタラクションを実装できるという。たとえば、GPT-4oを基盤とするEコマースアプリで、「前回の注文内容を教えて」といった音声での問い合わせに対応できるようになる。

これらのモデルは、OpenAIが2024年5月に発表した「GPT-4o」がベースとなっている。GPT-4oに、より多くの音声データを学習させることで、音声認識と音声生成に特化したモデルに進化させた。OpenAIのテクニカルスタッフ、ジェフ・ハリス氏によると、このモデルは雑音を除去する機能と、会話の自然な区切りを認識する機能を備えている。これにより、話者がいつ発言を終えたのかを正確に判断でき、文字起こしの精度が大幅に向上したという。
同社の発表によると、gpt-4o-transcribeは33の言語で従来のWhisperモデルよりも低いエラー率を実現。英語では2.46%という高精度を達成した。また、雑音のある環境でも安定したパフォーマンスを発揮し、さまざまなアクセントや発話速度にも対応可能としている。

市場では早くも反響を呼んでいる。不動産管理の自動化を手がけるEliseAIは、OpenAIの音声モデルを導入することで、入居者とのやり取りがより自然で感情豊かなものに改善されたと報告。入居者の満足度向上と通話解決率の改善につながったという。また、AI音声体験を構築するDecagonは、文字起こしの精度が30%向上したと述べている。

料金は、gpt-4o-transcribeが100万トークン(オーディオ入力)あたり6ドル(1分あたり0.006ドル)、gpt-4o-mini-transcribeが100万トークン(オーディオ入力)あたり3ドル(1分あたり0.003ドル)、gpt-4o-mini-ttsが100万トークン(テキスト入力)あたり0.60ドル、音声出力100万トークンあたり12ドル(1分あたり0.015ドル)となっている。

音声AIモデルが生成する音声は、人間に非常に近いものの、抑揚や感情表現でどこか不自然さが残るものだった。

しかしこの数カ月間で、各社の音声AIモデルは目を見張る進化を遂げており、コールセンターなどで活用するケースがさらに拡大しつつある。

直近の動きとして注目されるのは、ChatGPTで知られるOpenAIの取り組みだ。同社は2025年3月、3つの新しい音声AIモデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」「gpt-4o-mini-tts」を発表した。これらのモデルは、APIを通じてサードパーティの開発者に提供される。OpenAI.fmというデモサイトで利用可能となっており、誰でも音声モデルのクオリティを確認することが可能だ。

OpenAIは、同モデルの普及を見据え、既存のテキストベースのアプリケーションに簡単に統合できる仕組みを採用。同社によると、わずか9行のコードで音声インタラクションを実装できるという。たとえば、GPT-4oを基盤とするEコマースアプリで、「前回の注文内容を教えて」といった音声での問い合わせに対応できるようになる。

これらのモデルは、OpenAIが2024年5月に発表した「GPT-4o」がベースとなっている。GPT-4oに、より多くの音声データを学習させることで、音声認識と音声生成に特化したモデルに進化させた。OpenAIのテクニカルスタッフ、ジェフ・ハリス氏によると、このモデルは雑音を除去する機能と、会話の自然な区切りを認識する機能を備えている。これにより、話者がいつ発言を終えたのかを正確に判断でき、文字起こしの精度が大幅に向上したという。
同社の発表によると、gpt-4o-transcribeは33の言語で従来のWhisperモデルよりも低いエラー率を実現。英語では2.46%という高精度を達成した。また、雑音のある環境でも安定したパフォーマンスを発揮し、さまざまなアクセントや発話速度にも対応可能としている。

市場では早くも反響を呼んでいる。不動産管理の自動化を手がけるEliseAIは、OpenAIの音声モデルを導入することで、入居者とのやり取りがより自然で感情豊かなものに改善されたと報告。入居者の満足度向上と通話解決率の改善につながったという。また、AI音声体験を構築するDecagonは、文字起こしの精度が30%向上したと述べている。

料金は、gpt-4o-transcribeが100万トークン(オーディオ入力)あたり6ドル(1分あたり0.006ドル)、gpt-4o-mini-transcribeが100万トークン(オーディオ入力)あたり3ドル(1分あたり0.003ドル)、gpt-4o-mini-ttsが100万トークン(テキスト入力)あたり0.60ドル、音声出力100万トークンあたり12ドル(1分あたり0.015ドル)となっている。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です