[發明專利]一種問題細粒度分類方法、系統與裝置在審
| 申請號: | 201710678652.4 | 申請日: | 2017-08-10 |
| 公開(公告)號: | CN109388706A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 呂釗;謝雨飛;賀樑 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06K9/62 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;盛曉穎 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 細粒度分類 問題文本 語義單元 編碼問題 詞編碼 向量 文本 向量空間模型 注意力機制 記憶網絡 聚焦步驟 人力成本 分類器 準確率 自動化 聚焦 節約 保證 | ||
1.一種問題細粒度分類方法,用于對原問題文本進行問題分類,其特征在于,包括以下步驟:
語義單元提取步驟,在所述原問題文本中提取語義單元;
語義單元擴展步驟,對所述語義單元利用向量空間模型進行擴展,以獲得擴展問題文本;
詞編碼步驟,使用雙向長短時記憶網絡對所述擴展問題文本進行詞編碼,以獲得編碼問題文本;
詞聚焦步驟,對所述編碼問題文本利用注意力機制進行詞聚焦,以獲得問題文本向量。
細粒度分類步驟,使用softmax分類器對所述問題文本向量進行細粒度分類。
2.如權利要求1所述的問題細粒度分類方法,其特征在于,
語義單元提取步驟包括:
通過對依存句法樹的遍歷,找出所述原問題文本中所有的名詞短語節點和動詞短語節點作為所述語義單元。
3.如權利要求1所述的問題細粒度分類方法,其特征在于,所述語義單元擴展步驟包括,
生成語義單元向量步驟,將所述語義單元轉化為語義單元向量,所述語義單元向量Vu符合公式:
Vu=Vu1+Vu2+…+Vum={z1,z2,…,zd}
其中,Vu1,Vu2,Vum分別表示語義單元中多個短語節點所對應的單元向量,m取自然數;Z1,Z2,Zd組成了向量集合,d取自然數;
計算余弦相似度步驟,計算所述語義單元向量與Word2Vec模型中所有詞的向量的余弦相似度;
獲得擴展問題文本步驟,選擇余弦相似度最大的前數個值對應的單詞或者短語作為擴展問題文本。
4.如權利要求1所述的問題細粒度分類方法,其特征在于,所述詞編碼步驟中,所述雙向長短時記憶網絡符合公式:
其中xi表示詞向量,表示前向單元LSTM,按照從第1個詞到第T個詞的方向讀取單詞,表示反向單元LSTM,按照從第T個詞到第1個詞的方向讀取單詞,表示正向第i層隱含層的輸出,表示反向第i層隱含層的輸出。
5.如權利要求1所述的問題細粒度分類方法,其特征在于,所述詞聚焦步驟使用公式以獲得問題文本向量,所述公式為:
ui=tan h(Ewhi+bw)
其中αi表示歸一化的權重值,s表示最終得到的問題文本向量,Ew和μw表示隨機初始化的權重參數值,bw為偏置量,μi為單層感知器網絡的輸出,hi為隱含層的輸出。
6.如權利要求1所述的問題細粒度分類方法,其特征在于,所述細粒度分類步驟中,softmax分類器包括公式:
p=softmax(Wcs+bc)
其中j表示問題文本向量s的標簽,Wc表示隨機初始化的權重參數值,bc為偏置量,p值為每個類別的概率得分值,L表示損失函數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710678652.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本意圖分類方法
- 下一篇:短文本分類方法及裝置





