一家快速增长的SaaS公司正在尝试改进其AI代理处理重复客户问题的方式……
他们对不同的AI生成的回复运行A/B测试:
A组获得默认模型的回应。
B组看到一个调整了语气和长度的版本。
这听起来像是一个聪明、数据驱动的实验。但很快,他们就碰壁了:数量足够大,需要关注自动化,但又太少,无法快速获得具有统计意义的A/B测试结果。
现在他们陷入了困境。等待数周才能获得确凿的数据,或者恢复原状,并冒着用户持续沮丧的风险。
但真正的问题在于更深层次。
A/B测试可以帮助优化表面特征,例如语气、长度或措辞。
但AI支持中的大多数问题与语气无关,而是与准确性有关。
如果答案本身是错误的,或者含糊不清到对客户毫无用处,那么进行A/B测试语气和风格毫无意义。
核心问题是“开箱即用模型”,它们会摄取您的知识库,但它们不了解您的领域。
他们不了解您的产品。
因此,您只能通过反复试验来提高性能,一次调整一个响应,添加更多资源,更新现有资源,所有这些都是因为该模型没有针对您的领域语言进行微调,并且不够理解上下文,无法使用已有的内容。
另一方面,在您实际的支持对话、产品语言和逻辑上对AI模型进行微调,使AI代理能够像经验丰富的团队成员一样做出响应,从而提高准确性并将转移率提高到新的高度。
这就是我们在这里所做的事情。