[發明專利]咨詢問題聚合的方法和裝置在審
| 申請號: | 201510341110.9 | 申請日: | 2015-06-18 |
| 公開(公告)號: | CN104866631A | 公開(公告)日: | 2015-08-26 |
| 發明(設計)人: | 邵佳帥;陳海勇;牟川;邢志峰 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 姜勁;陸錦華 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 咨詢 問題 聚合 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種咨詢問題聚合的方法和裝置。
背景技術
隨著電子商務行業的高速發展,越來越多的用戶選擇在購買前進行線上咨詢。用戶在線上提出問題后,需要等待解答,這種情形比較浪費時間。基于此,電子商務網站將問答系統數據庫中用戶之前問過的相似問題進行聚合,這樣,在提問前,用戶可先行進行搜索,如之前已有類似問題并且存在答案的話,就會大大縮短用戶得到答案的時間,提高用戶體驗。
目前對相似文本聚合主要通過以下方法:
(1)采用余弦相似度的方法進行聚合。該方法主要是根據一個文章中出現詞的詞頻構成一個向量,然后計算兩篇文章對應向量的向量夾角,根據向量夾角的余弦值對文本進行聚合。
(2)采用simhash算法對文本進行聚合。該方法的主要思想是降維,將高維的特征向量映射成一個f-bit的指紋(fingerprint),通過比較兩個問題的f-bit指紋的海明距離來確定文章是否重復或者高度近似。
但是目前這兩種方法都存在一些問題:
對于方法(1),由于有可能一個文章的特征向量詞特別多,導致整個向量維度很高,使得計算的代價太大,不適合大數據量的計算;此外,以詞為單位來計算文本的相似度,這樣計算的粒度過粗,導致計算結果的準確率底。
對于方法(2),simhash算法相對余弦相似度的方法而言,速度快適合大數據計算。但現有技術中運用simhash算法計算相似度仍多采用以詞為單位計算文本的相似度,仍不能保障解決計算結果的準確率。
發明內容
有鑒于此,本發明提供一種咨詢問題聚合的方法和裝置,能夠實現對文本數據句子主干的提取,在盡可能的保留某一問題的原意的情況下,完成相似問題的聚合,提高問題聚合的精度。
為實現上述目的,根據本發明的一個方面,提供了一種咨詢問題聚合的方法。
本發明的咨詢問題聚合的方法包括:獲取文本數據并對所述文本數據進行預處理,所述文本數據是問答系統數據庫中存儲的之前咨詢過的問題的文本數據;提取預處理后的文本數據的句子主干;將所提取的句子主干進行聚合并輸出所聚合的數據集合。
可選地,對所述文本數據進行預處理包括:對獲取的文本數據進行字符歸一化、去除無用字符以及去除無用信息的處理。
可選地,提取預處理后的文本數據的句子主干包括:基于問句模式提取預處理后的文本數據的句子主干。
可選地,將所提取的句子主干進行聚合包括:采用simhash算法,計算所提取的句子主干之間的海明距離,按照預設規則將海明距離小于預設閾值的句子聚合到同一數據集合。
可選地,將所提取的句子主干進行聚合還包括:在將所提取的句子主干進行聚合前,生成預處理后的文本數據與所提取的句子主干數據的哈希對應關系;在將所提取的句子主干進行聚合后,將所聚合的數據集合內的各句子主干根據所述哈希對應關系的哈希值映射回預處理后的文本數據。
根據本發明的另一方面,提供了一種咨詢問題聚合的裝置。
本發明的咨詢問題聚合的裝置包括:預處理模塊,用于獲取文本數據并對所述文本數據進行預處理,所述文本數據是問答系統數據庫中存儲的之前咨詢過的問題的文本數據;提取模塊,用于提取預處理后的文本數據的句子主干;聚合模塊,用于將所提取的句子主干進行聚合并輸出所聚合的數據集合。
可選地,所述預處理模塊還包括:用于對獲取的文本數據進行字符歸一化、去除無用字符以及去除無用信息的模塊。
可選地,所述提取模塊還包括:用于基于問句模式提取預處理后的文本數據的句子主干的模塊。
可選地,所述聚合模塊還包括:用于采用simhash算法,計算所提取的句子主干之間的海明距離,按照預設規則將海明距離小于預設閾值的句子聚合到同一數據集合的模塊。
可選地,所述聚合模塊還包括:用于在將所提取的句子主干進行聚合前,生成預處理后的文本數據與所提取的句子主干數據的哈希對應關系的模塊;以及用于在將所提取的句子主干進行聚合后,將所聚合的數據集合內的各句子主干根據所述哈希對應關系的哈希值映射回預處理后的文本數據的模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510341110.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機床主軸電機中平衡外力負載的方法
- 下一篇:一種推送方法和電子設備





