[發明專利]基于言語行為理論的用戶交互意圖識別方法及系統在審
| 申請號: | 201710171926.0 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN107153672A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 崔宸熙;劉春陽;曾大軍;趙志云;張旭;李雄;王萌;王磊 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 郭文浩,李飛 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 言語 行為 理論 用戶 交互 意圖 識別 方法 系統 | ||
技術領域
本發明涉及計算機科學中的意圖識別技術領域,更具體地,涉及一種基于言語行為理論的用戶交互意圖識別方法及系統。
背景技術
對用戶交互行為的意圖進行挖掘和分析在社會公共安全、商務智能、社情輿情等領域具有十分重要的應用價值。隨著社交媒體(微博、Twitter、Facebook等)不斷發展和壯大,人們越來越傾向于通過社交媒體分享個人經歷、發表觀點、表達意愿,并由此產生了海量用戶生成內容。這些內容中蘊含著豐富多樣的有價值信息,其中,交互意圖廣泛存在于社交媒體的用戶討論中,對用戶的交互意圖進行分析和識別,能夠為社會、經濟、政治、文化相關的多個領域應用提供關鍵信息和決策支持。
傳統的意圖識別在人工智能領域有廣泛的研究,其研究的重點是基于離線信息檢測智能體行為,并與預定義庫中的行為模式進行匹配,從而識別智能體的意圖。隨著社會媒體平臺和網絡通信的飛速發展,對用戶的在線交互進行意圖識別已經成為網絡大數據應用中的重要研究問題。以往的社交媒體中的意圖分析工作主要集中在查詢意圖和消費意圖兩個領域。
用戶查詢意圖識別是從搜索引擎日志數據(包括點擊、點擊序列和查詢條件等)中挖掘用戶的查詢意圖,并按照預定義的意圖類別分類識別。現有的查詢意圖分類方法主要包括兩種:1)根據查詢功能分類,Kang等(SIGIR,2003)將查詢意圖分類為信息、導航、翻譯;2)根據用戶行為分類,Hu等(WWW,2009)提出了旅行和工作兩種行為相關意圖。由于搜索引擎中的查詢由詞項組成且長度受限,現有的查詢意圖識別致力于擴展查詢特征,恢復完整查詢語義,Hu等(WWW,2009)利用維基百科作為外部知識源擴展查詢詞項,Yang等(WSDM,2015)提出自動生成交互問題,根據用戶反饋修正意圖。
消費意圖識別著重從在線文本數據(微博、論壇、查詢等)中挖掘用戶是否具有購買意愿。長文本數據主要利用NLP技術進行消費意圖識別,Chen等(HLT-NAACL,2013)研究了在特定領域論壇中的購買意圖表達模式;短文本數據由于語義的不規范致力于消費對象實體的識別,Fu等(計算機科學與探索,2015)提出了一種跨媒體的偽反饋方法,借助外部搜索引擎對微博中的商品名詞進行識別。
目前,用戶意圖識別發展到更一般的社交媒體平臺中。Wang等(AAAI,2015)提出了一種基于用戶日常行為的Twitter分類方案,包括食品、旅游、教育等,但他們的方法僅限于顯式的意圖表達,如“我想要…”、“我計劃…”;Purohit等(SocialCom,2015)設計了一種基于特征的方法識別“尋求幫助”和“提供幫助”兩種Twitter意圖,應用的背景限定在危機事件中,而不考慮更一般的用戶意圖識別。相比之下,我們的工作重點是定義更為通用的意圖分類體系,并在海量在線文本數據中識別用戶的交互意圖。
以往的意圖識別方法主要存在以下不足:(1)意圖類型主要集中在特定領域,無法對其他交互意圖類型進行識別,適用范圍比較窄;(2)意圖識別的對象主要集中在固定領域的文本中,或帶有明顯意圖的規則表達中,無法對不規則表達中的隱式交互意圖進行識別,可用性比較差;(3)現有方法大多利用人工標注數據進行有監督學習或半監督學習,在人工標注語料缺失時無法對大規模數據進行有效交互意圖識別。
發明內容
為了解決現有技術中的上述問題,即為了解決識別各種交互意圖類型的問題,本發明提供了一種基于言語行為理論的用戶交互意圖識別方法。
為實現上述目的,本發明提供了如下方案:
一種基于言語行為理論的用戶交互意圖識別方法,所述用戶交互意圖識別方法包括:
基于外部知識源構建行為標記語詞典,各意圖類別分別對應一個行為標記語詞典,每個所述行為標記語詞典中包含有多個行為標記語;
根據所述行為標記語詞典,自動標注用戶在社交媒體平臺上輸入的在線文本的意圖;
利用自動標注語料訓練基于特征的分類器對所述在線文本的意圖進行分類識別,確定用戶的交互意圖類別。
可選的,所述基于外部知識源構建行為標記語詞典包括:
針對每一意圖類別選擇設定數量的種子詞,構造初始行為標記語詞典;
選取待加入到所述初始行為標記語詞典中的擴充詞;
計算所述擴充詞與種子詞的語義相似度;
篩選出語義相似度大于相似度閾值的擴充詞,并添加到對應的所述初始行為標記語詞典中,形成對應各所述意圖類別的行為標記語詞典。
可選的,所述擴充詞分為記載在知網HowNet中的擴充詞和未記載在HowNet中的擴充詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710171926.0/2.html,轉載請聲明來源鉆瓜專利網。





