[發明專利]一種提供高頻問題回答的方法和裝置有效
| 申請號: | 201410049585.6 | 申請日: | 2014-02-12 |
| 公開(公告)號: | CN104834651B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 陳超 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 劉光明;陸錦華 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提供 高頻 問題 回答 方法 裝置 | ||
1.一種提供高頻問題回答的方法,其特征在于,包括:
步驟A:根據預選的高頻問題集,采用文本分類算法得出高頻問題的分類模型,其中答案相同的高頻問題歸為同一高頻問題類;
步驟B:使用所述分類模型,確定當前待回答的高頻問題可能屬于的一個或幾個高頻問題類;
步驟C:根據當前待回答的高頻問題對于步驟B中確定的高頻問題類的屬于概率,對當前待回答的高頻問題進行答復;
所述步驟A包括:
步驟A1:對所述高頻問題集進行特征化,使其中各個高頻問題在特征化之后為多個特征詞;
步驟A2:對特征化之后的多個高頻問題進行模型訓練從而得到所述分類模型;
其中,所述步驟A2包括:
步驟A21:按以下公式計算出高頻問題集中每個特征詞的信息增益值:
其中,n表示高頻問題的類別數目;p(ci)表示類別ci的先驗概率,p(t)表示詞t的先驗概率,p(ci|t)表示出現t時,類別ci出現的概率,表示不出現t時,類別ci出現的概率;
步驟A22:根據每個特征詞的信息增益值,將高頻問題向量化,得到向量化后的高頻問題集;
步驟A23:把向量化后的高頻問題集作為數據進行模型訓練,從而得到所述分類模型;
在所述步驟C中,若最大的一個屬于概率大于預設值,則輸出對應該屬于概率的高頻問題類的答案,否則提供大小排名在前的預設數目個屬于概率所對應的高頻問題類的答案。
2.根據權利要求1所述的方法,其特征在于,所述步驟A1包括:
對所述高頻問題集依次進行文本糾錯、分詞、停用詞過濾,然后按預設方式對所述高頻問題集進行詞語泛化,從而得到多個特征詞。
3.一種提供高頻問題回答的裝置,其特征在于,包括:
模型構建模塊:用于根據預選的高頻問題集,采用文本分類算法得出高頻問題的分類模型,其中答案相同的高頻問題歸為同一高頻問題類;
歸類模塊,用于使用所述分類模型,確定當前待回答的高頻問題可能屬于的一個或幾個高頻問題類;
答復模塊,用于根據當前待回答的高頻問題對于所述歸類模塊確定的高頻問題類的屬于概率,對當前待回答的高頻問題進行答復;
所述模型構建模塊包括:
特征化單元,用于對所述高頻問題集進行特征化,使其中各個高頻問題在特征化之后為多個特征詞;
訓練單元,用于對特征化之后的多個高頻問題進行模型訓練從而得到所述分類模型;
其中,所述訓練單元用于:
按以下公式計算出高頻問題集中每個特征詞的信息增益值:
其中,n表示高頻問題的類別數目;p(ci)表示類別ci的先驗概率,p(t)表示詞t的先驗概率,p(ci|t)表示出現t時,類別ci出現的概率,表示不出現t時,類別ci出現的概率;
根據每個特征詞的信息增益值,將高頻問題向量化,得到向量化后的高頻問題集;
把向量化后的高頻問題集作為數據進行模型訓練,從而得到所述分類模型;
所述答復模塊包括:
排序模塊,用于對所述歸類模塊確定的高頻問題類的屬于概率按大小進行排序;
判斷輸出模塊,用于判斷最大的一個屬于概率是否大于預設值,若是,則輸出對應該屬于概率的高頻問題類的答案,否則輸出大小排名在前的預設數目個屬于概率所對應的高頻問題類的特征化的高頻問題;
回答模塊,用于輸出被選擇的所述特征化高頻問題的答案。
4.根據權利要求3所述的裝置,其特征在于,所述特征化單元還用于:對所述高頻問題集依次進行文本糾錯、分詞、停用詞過濾,然后按預設方式對所述高頻問題集進行詞語泛化,從而得到多個特征詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410049585.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示網絡資源的質量參數的方法和裝置
- 下一篇:總線型的中央處理器





