急成長中のSaaS企業が、AIエージェントによる顧客からの繰り返しの問題への対応方法を改善しようとしています...
異なるAI生成応答に対してA/Bテストを実施します。
グループAは、デフォルトモデルの応答を受け取ります。
グループBは、調整されたトーンと長さのバージョンを表示します。
賢明でデータに基づいた実験のように聞こえます。しかしすぐに、彼らは壁にぶつかります。自動化を検討するのに十分なボリュームがありますが、統計的に有意なA/Bテストの結果を迅速に得るには少なすぎます。
今、彼らは行き詰まっています。決定的なデータを得るために数週間待つか、元に戻してユーザーに継続的な不満を与えるリスクを冒します。
しかし、本当の問題はもっと根深いです。
A/Bテストは、トーン、長さ、言い回しなどの表面的な特性を最適化するのに役立ちます。
しかし、AIサポートのほとんどの問題はトーンに関するものではなく、正確さに関するものです。
回答自体が間違っているか、顧客にとって役に立たないほど曖昧な場合、トーンとスタイルをA/Bテストしても意味がありません。
根本的な問題は、知識ベースを取り込む「既製のモデル」ですが、ドメインを理解していないことです。
彼らはあなたの製品を隅々まで知りません。
そのため、モデルがドメイン言語に合わせて微調整されておらず、既存のものを活用するのに十分なほどコンテキストを理解していないため、試行錯誤によってパフォーマンスを向上させ、一度に1つの応答を調整し、より多くのリソースを追加し、既存のリソースを更新することに行き詰まっています。
一方、実際のサポート会話、製品言語、およびロジックに基づいてAIモデルを微調整すると、AIエージェントは経験豊富なチームメンバーのように応答できるようになり、精度が向上し、対応件数削減率が新たな高みに達します。
それが私たちがここでやっていることです。