[發明專利]一種問題細粒度分類方法、系統與裝置在審
| 申請號: | 201710678652.4 | 申請日: | 2017-08-10 |
| 公開(公告)號: | CN109388706A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 呂釗;謝雨飛;賀樑 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06K9/62 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;盛曉穎 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 細粒度分類 問題文本 語義單元 編碼問題 詞編碼 向量 文本 向量空間模型 注意力機制 記憶網絡 聚焦步驟 人力成本 分類器 準確率 自動化 聚焦 節約 保證 | ||
本發明提供一種問題細粒度分類方法、系統與裝置,包括以下步驟:語義單元提取步驟,在原問題文本中提取語義單元;語義單元擴展步驟,對語義單元利用向量空間模型進行擴展,以獲得擴展問題文本;詞編碼步驟,使用雙向長短時記憶網絡對擴展問題文本進行詞編碼,以獲得編碼問題文本;詞聚焦步驟,對編碼問題文本利用注意力機制進行詞聚焦,以獲得問題文本向量。細粒度分類步驟,使用softmax分類器對問題文本向量進行細粒度分類。本發明在保證一定準確率的前提下最大程度的實現了此過程的自動化,提高了問題細粒度分類的效率,能最大限度的節約人力成本。
技術領域
本發明涉及文本細粒度分類領域,尤其是一種問題細粒度分類方法、系統與裝置。
背景技術
隨著社交網絡的發展,社區問答、微博、微信等社交工具越來越流行。社交問答網站,例如Quora、Research Gate、Yahoo!Answers、知乎、豆瓣等引起了許多國內外學者的關注。問題分類是問答網站的核心組成部分,直接影響著用戶的檢索速度。而近幾年,隨著深度學習的發展,問題的細粒度分類越來越受到研究學者的青睞。問題細粒度分類針對的是問題的更精細化的分類,是目前的研究熱點。
一般地,問題指的是句子詞數在140-150左右需要被解答或者解釋的問題文本。問題細粒度分類隸屬于短文本分類,主要任務是準確地分辯區別出屬于同一個上級類別的子類別。與短文本分類相比較,問題細粒度分類面臨著以下幾個難題,主要有:(1)細分類別之間的整體特征較為相似,只有在某個局部區域存在差異;(2)難以找出局部差異較大的特征區域;(3)問題文本本身較為短小,特征空間較為稀疏。因此傳統的文本表示模型直接應用到問題細粒度分類上的效果不佳。
發明內容
針對以上現有問題,本發明的目的在于克服短文本本身特征空間較為稀疏的不足,提出了一種問題細粒度分類方法。
根據本發明的第一個方面,提供一種問題細粒度分類方法,用于對原問題文本進行問題分類,包括以下步驟:語義單元提取步驟,在原問題文本中提取語義單元;語義單元擴展步驟,對語義單元利用向量空間模型進行擴展,以獲得擴展問題文本;詞編碼步驟,使用雙向長短時記憶網絡對擴展問題文本進行詞編碼,以獲得編碼問題文本;詞聚焦步驟,對編碼問題文本利用注意力機制進行詞聚焦,以獲得問題文本向量。細粒度分類步驟,使用softmax分類器對問題文本向量進行細粒度分類。
優選地,語義單元提取步驟包括:通過對依存句法樹的遍歷,找出原問題文本中所有的名詞短語節點和動詞短語節點作為語義單元。
優選地,語義單元擴展步驟包括,生成語義單元向量步驟,將語義單元轉化為語義單元向量,語義單元向量Vu符合公式:
Vu=Vu1+Vu2+…+Vum={z1,z2,…,zd}
其中,Vu1,Vu2,Vum分別表示語義單元中多個短語節點所對應的單元向量,m取自然數;Z1,Z2,Zd組成了向量集合,d取自然數;計算余弦相似度步驟,計算語義單元向量與Word2Vec模型中所有詞的向量的余弦相似度;獲得擴展問題文本步驟,選擇余弦相似度最大的前數個值對應的單詞或者短語作為擴展問題文本。
優選地,詞編碼步驟中,雙向長短時記憶網絡符合公式:
其中xi表示詞向量,表示前向單元LSTM,按照從第1個詞到第T個詞的方向讀取單詞,表示反向單元LSTM,按照從第T個詞到第1個詞的方向讀取單詞,表示正向第i層隱含層的輸出,表示反向第i層隱含層的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710678652.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本意圖分類方法
- 下一篇:短文本分類方法及裝置





