一家快速成長的 SaaS 公司正試圖改善其 AI 代理處理重複出現的客戶問題的方式……
他們針對不同的 AI 生成的回應進行 A/B 測試:
A 組收到預設模型的回應。
B 組看到一個調整了語氣和長度的版本。
這聽起來像是一個聰明、數據驅動的實驗。但很快,他們就碰壁了:量夠大,足以關心自動化,但又太小,無法快速獲得具有統計意義的 A/B 測試結果。
現在他們陷入了困境。等待數週才能獲得確鑿的數據,或者恢復原狀並冒著讓用戶持續感到沮喪的風險。
但真正的問題更深層。
A/B 測試可以幫助優化表面層次的特徵,例如語氣、長度或措辭。
但 AI 支援中的大多數問題與語氣無關,而是與準確性有關。
如果答案本身是錯誤的,或者太模糊以至於對客戶毫無用處,那麼進行 A/B 測試語氣和風格就毫無意義。
核心問題是「開箱即用模型」會提取您的知識庫,但它們不了解您的領域。
他們不完全了解您的產品。
因此,您只能透過反覆試驗來提高效能,一次調整一個回應,添加更多資源,更新現有資源,所有這些都是因為該模型沒有針對您的領域語言進行微調,並且不夠了解上下文,無法使用已有的內容。
另一方面,針對您實際的支援對話、產品語言和邏輯對 AI 模型進行微調,使 AI 代理能夠像經驗豐富的團隊成員一樣回應,從而提高準確性並將轉移率推向新的高度。
這就是我們在這裡所做的事情。