[發明專利]一種基于深度學習的短文本依存分析方法有效
| 申請號: | 201710934201.2 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107656921B | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 肖仰華;謝晨昊;梁家卿;崔萬云 | 申請(專利權)人: | 上海數眼科技發展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06N3/08 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 韓鳳 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文本 依存 分析 方法 | ||
1.一種基于深度學習的短文本依存分析方法,其特征在于,包括:
步驟1)從搜索引擎日志中,獲取用戶查詢語句所在的HTML文件,作為訓練數據集;
步驟2)根據訓練數據集生成查詢語句的依存分析樹;
步驟3)使用依存樹訓練基于神經網絡模型的詞性標注器和句法分析器;
步驟1)中,具體包括:
對于搜索日志中的每個查詢q以及在這個搜索結果下用戶點擊率較高的URL列表,獲取其對應的HTML文檔;
將其中包含這個查詢中每個單詞的句子s取出,這樣可以得到若干個三元組:(q,s,count),其中count表示該單詞在該句子中出現的次數;
得到的三元組集作為生成依存分析樹的訓練數據集;
一個短文本有多個對應的用戶點擊的句子,其中,為短文本q在句子s中生成依存分析樹,具體包括:
設Ts表示s的依存關系樹的所有子樹;
找到最小子樹t∈Ts滿足每個單詞x∈q有且僅有一個匹配x′∈t;
對q中的任意兩個單詞x和y,用下面的方式從t生成q的依存關系樹tq,s:
如果在t中有一條邊x′→y′,則在tq,s中創建一條相同的邊x→y;
如果在t中有一條從x′到y′的路徑,則在tq,s中創建一條x→y的邊,并且將其臨時標記為dep,
為每個句子生成依存樹后,需要為該短文本選擇一個唯一的依存樹,定義一個打分函數f來評估從q的對應句子s中生成的依存關系樹tq的質量:
其中(x→y)表示樹上的一條邊,count(x→y)是這條邊在整個數據集上出現的次數,dist(x,y)是單詞x和y在原本句子的依存分析樹上的距離,α是一個用來調整兩個計分方法重要程度的參數;
最后對標簽進行精煉。
2.根據權利要求1所述的基于深度學習的短文本依存分析方法,其特征在于,部分依存關系邊的類型被設置為占位符“dep”,將“dep”推斷成一個真實的標簽,否則在訓練數據集中會導致不一致現象;
對應使用多數表決(majority vote)的方式;
包括:對于任意的統計在訓練數據集中針對每個具體標簽出現的次數;如果一個特定標簽的頻率大于閾值,當出現次數多余其他標簽的10倍,則將占位符dep更改為該標簽。
3.根據權利要求1所述的基于深度學習的短文本依存分析方法,其特征在于,步驟3)訓練基于神經網絡模型的詞性標注器和句法分析器,具體包括:
對句子中的每個單詞,以該單詞為中心建立固定窗口,抽取特征,包括該單詞本身、大小寫、前綴、后綴;
對于單詞特征,使用預訓練的word2vec嵌入方法;對于大小寫和前后綴,對嵌入進行隨機初始化;
接下來,使用基于ArcStandard的依存分析系統解析句子,使用的特征如下表所示:
表格中,si(i=1,2,...)表示棧頂的第i個元素,bi(i=1,2,...)表示緩沖區的第i個元素,lck(si)和rck(si)表示si的左端的第k個子節點和右端第k個子節點,w表示單詞本身,t表示詞性標注,l表示依存關系標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數眼科技發展有限公司,未經上海數眼科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710934201.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數顯壓力表的測試裝置
- 下一篇:一種線纜護套擠出機





