[發明專利]一種用于問答平臺中問句的聚類方法及系統無效
| 申請號: | 200910090529.6 | 申請日: | 2009-08-19 |
| 公開(公告)號: | CN101630312A | 公開(公告)日: | 2010-01-20 |
| 發明(設計)人: | 姜中博;劉懷軍;方高林 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京凱特來知識產權代理有限公司 | 代理人: | 鄭立明 |
| 地址: | 518028廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 問答 平臺 問句 方法 系統 | ||
技術領域
本發明涉及互聯網搜索技術領域,具體的說,涉及一種用于問答平臺中問句的聚類方法及系統。
背景技術
互聯網技術的飛速發展,網絡信息量也在不斷猛增,現有的問答平臺已包含了海量的問句,例如:搜搜問問系統已含有高達6千萬個已解決問題的問答對,問句則更多。針對這種情況,問答平臺在接收到用戶的檢索請求時,需要具有快速的在這些海量問句及問答對中,找到與所述檢索請求對應的信息提供給用戶的能力,但現有的問答平臺還不能實現,所以快速而準確的聚類方法及系統對于現有的問答平臺來說非常必要。
由于問答平臺包含了大量的問句及問答對,使現有問答平臺相對與其它服務系統而言,具有一些特殊性:
(1)問句具有文字長度不平衡的特點。一般文本語料長度都是比較適中,但問答平臺中問句的長度通常卻較短,平均在10個字以下,最多20個字,在去除一些停用詞等無關詞噪聲之后剩余的字數就更少,這使得關鍵詞在問句中的重要性不夠突出。當問句含有過多冗余關鍵詞這種極端情況時,應用現有相似度度量方法,會嚴重影響度量結果。
(2)問句中TF(Term?Frequency,詞頻)等于或略微大于DF(Document?Frequency,文檔頻率)。在基于向量空間模型(Vector?Space?Model:VSM)的相似度度量過程中,關鍵詞權值是一個必備的元素。TFIDF這種計算關鍵詞權值的通用方法,應用在包含問句或最佳問答對的問答平臺來說,不能準確地描述出關鍵詞的重要程度,所以影響了相似性度量的準確性。
(3)問句包括多種語義特征。問答平臺中問句的語義特征(Question?SemanticFeature,QSF)包含疑問類型、比較特征等。不同問句的疑問類型能表達出提問者針對問題答案的側重點。例如:北京在哪里?怎么去北京。
含有比較特征的問句相對于不含有比較特征的問句來說,更能清楚的獲知問句的最佳答案。例如:問句中含有“最”,“更”,“全部”或“所有”等詞語。
如果能夠準確的識別出問句的語義特征,就可給用戶提供更高的服務質量和用戶體驗,但目前現有的聚類方法在問答平臺中仍不能實現。
在實現本發明的過程中,發明人發現:針對如上所述現有技術存在的問題,一種應用在包含海量問句的問答平臺中,能夠根據問句特點和語義特征快速、準確的聚類系統對現有技術來說是非常重要的。
發明內容
本發明要解決的技術問題是提供一種用于問答平臺中問句的聚類方法及系統,能夠根據問句的特點和語義特征對所述問句進行聚類處理,獲得更加準確的聚類結果。
本發明的技術方案如下:
本發明一種用于問答平臺中問句的聚類方法,包括:
根據所述問句的語義特征對問答平臺中的問句進行分析,并獲得分析結果;所述語義特征包括所述問句的疑問類型、比較特征以及與所述問句內容相關的同義詞;
針對經過所述語義特征分析后的所述問句,采用具有評估問句語義相似度的聚類算法,以獲得所述問答平臺中問句的聚類結果。
進一步的,根據所述問句的語義特征對問答平臺中的問句進行分析,并獲得分析結果;具體過程包括:
對所述問句中抽取的關鍵詞進行數量判斷,當所述問句中實際關鍵詞數小于預先設定的參考關鍵詞數時,根據預先生成的語義擴展庫對所述問句進行語義擴展;否則,對所述問句中包含的實際關鍵詞根據詞性特征和權值大小進行去冗余處理;
對經過關鍵詞數量判斷后的所述問句進行語義特征判斷,根據所述語義擴展庫從所述問句中抽取出對應的疑問類型、比較特征以及與所述問句內容相關的同義詞,以獲得與所述問句實際對應的分析結果。
進一步的,所述方法還包括:
在對所述問句中抽取的關鍵詞進行數量判斷之前,根據詞性特征,對從所述問句中抽取出的關鍵詞進行關鍵詞權值計算。
進一步的,所述方法還包括:
從互聯網上采集海量問句或問答對,整理出所述海量問句中的同義詞和經過相似度計算獲得的語義相似詞;
針對采集到的海量問句或問答對進行疑問類型分類以及比較特征的提取,以獲得所述語義擴展庫;所述語義擴展庫中包含同義詞集合、語義相似詞集合、語義特征集合中的一種或多種;所述語義特征庫包括疑問類型和比較特征。
進一步的,針對經過所述語義特征分析后的所述問句,采用具有評估問句語義相似度的聚類算法,具體過程包括:
從備選簇集合中抽取出一個簇,對所述簇與經過所述語義特征分析后的問句,進行相似度計算,并獲得所述相似度值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910090529.6/2.html,轉載請聲明來源鉆瓜專利網。





