在國際會議組織TREC(Text Retrieval Conference)所舉辦的自動詢答系統競賽(Question Answering Track)中,顯示最佳的詢答系統是能夠過濾出問句中的語義概念集合,並依此概念集合找到適合的答案;而不是僅僅找出符合問句中某些特定字眼的答案或網頁。
將此原則延伸至Email回覆系統上,Act Engine所採用的文件分類技術,即是一種能抽取文件中所欲表達的語義概念集合的演算法。簡單來說,Act Engine結合了資訊檢索與擷取(Information Retrieval / Extraction)、自然語言詢答(Question-Answering System)、自動化文件分類(Automatic Text Classification)等技術。
傳統式關鍵字篩選
傳統上,電子郵件轉發(Email Routing)的方式,可根據寄件者、服務信箱等資訊作為轉發的條件設定,若要進一步做到針對郵件主旨與內文來轉發或回覆,則以定義關鍵字的方式來達成。此方式類似於文件過濾(Filtering)的技巧,以事先定義好的關鍵字當作過濾條件,決定每一封信件該轉發的部門及所對應到的答案。直觀上,此做法簡單明瞭,但卻隱含著下列難以避免的缺點:
- 關鍵字選定依據(Keyword Selection)
在系統無法給予客觀的協助之下,操作人員必須根據自己的的經驗與不斷的試驗,設法找出文章字裡行間的關鍵字詞,此舉往往需花費大量的時間,而且不見得能達到期望的準確率。
- 各類別之間的干擾(Interference)
根據不同類別或不同回覆答案來定義關鍵字,必需顧及類別之間相似與相斥的地方,容易顧此失彼,難以達到平衡點。
- 缺乏彈性(Flexibility)
用關鍵字來過濾郵件,以符合或不符合該類別的關鍵字詞作為過濾條件,由於過於主觀、缺乏調整彈性,容易發生濾掉了不該濾的郵件等情況。
- 關鍵字的維護(Maintainability)
由於寄信者是一般使用者,書寫的郵件內容往往會隨著個人習慣不同,而有不同的表達方式,因此,關鍵字詞必須不斷地新增修改,以符合各種不同的表達方式。
Act Engine技術說明
Act Engine利用本身對於整篇文章的解析能力,應用在解析Email主旨及內文,達到二個主要目標,一是重複利用(Reuse)Email,也就是在分析一段時間的Email之後,建立知識庫,達成未來新進Email的自動分類。二是與回應的答案產生關聯,賦予答案庫自動回應的能力,或是輔助客服人員搜尋答案。以下便針對Act Engine優於傳統式關鍵字篩選的特性作說明。
- 自動抽取語義特徵(Automatic Feature Extraction)
操作人員只需將分屬於各類別的少量訓練樣本匯入,Act Engine便會自動產生出關於類別的關鍵語義特徵,而不需要自行定義關鍵字。
- 自動計算出各類別間的可辨性(Differentiability)
Act Engine在取得關鍵語義特徵的同時,亦顧及各類別間的差異,避免類別之間的相互干擾。
- 富有彈性(Flexibility)
根據操作人員提供的訓練樣本,Act Engine抽取出的語義特徵,會隨著每個特徵對於各類別的重要性彈性調整,增加客觀性,並非僅僅是過濾(Filtering)的功能。
- 可修護性(Maintainability)
操作人員不用依照寄件者的習慣,一一地新增或修改關鍵字;Act Engine的自動語義特徵抽取技術,會將各種不同的表達法剖析並自動新增修改。




