[發明專利]利用了網絡搜索的依存句法的領域自適應方法有效
| 申請號: | 201310729563.X | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103646112B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 周光有;趙軍 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 吳秋明 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 網絡 搜索 依存 句法 領域 自適應 方法 | ||
1.一種利用了網絡搜索的依存句法領域自適應方法,包括:?
訓練得到基準依存句法分析模型的步驟(S1),對于給定的源領域帶標注的數據,通過訓練得到對數線性的基準依存句法分析模型L;?
獲取候選依存句法樹的步驟(S2),對于目標領域X={x1,x2,…,xn}中的未標注數據集合的每一個未標注數據xi,利用基準依存句法分析模型L,輸出對應于未標注數據xi的K個最優候選依存句法樹作為輸出結果,將所述輸出結果表示為一組候選依存句法樹的形式,設xik表示未標注數據xi的第k棵候選依存句法樹,其中,n是大于等于1的整數,K是大于等于1的整數,1≤i≤n,1≤k≤K;?
獲取候選依存句法樹的評估值的步驟(S3),對于所述獲取候選依存句法樹的步驟(S2)中輸出的每一棵候選依存句法樹xik,基于基準依存句法分析模型L,獲得每一棵候選依存句法樹xik的評估值,將對該評估值進行歸一化得到的歸一化評估值記為L(xik);?
通過網絡搜索獲取特征向量值的步驟(S4),將每一棵候選依存句法樹xik拆分為一組詞語語義關系的集合F={f1,f2,…,fJ},以集合中的每一個詞語語義關系fj為特征,通過網絡搜索計算得到該詞語語義關系fj的強度fj(xik),即該特征的特征向量值,其中J是大于等于1的整數,1≤j≤J;和?
構建重排序模型的步驟(S5):設重排序目標函數為?其中α0表示與由基準依存句法分析模型L得?到的評估值L(xik)對應的權重,αj表示第j個特征對應的權重,是所述重排序目標函數中的一組對應這些特征和對數似然的權值向量參數,選出重排序目標函數最大的候選依存句法樹。?
2.根據權利要求1所述的利用了網絡搜索的依存句法領域自適應方法,其特征在于,?
將每一棵候選依存句法樹xik拆分為一組詞語語義關系的集合F={f1,f2,…,fJ},所述未標注數據的一個句子的語義是由詞語、詞語關系表達出來的。?
3.根據權利要求1所述的利用了網絡搜索的依存句法領域自適應方法,其特征在于,?
所述重排序目標函數中的一組對應這些特征和對數似然的權值向量參數通過廣義迭代縮放算法得到。?
4.根據權利要求1所述的利用了網絡搜索的依存句法領域自適應方法,其特征在于,?
所述特征向量值fj(xik)的計算采用網絡搜索對特征進行搜索來進行,特征向量值fj(xik)包括名詞選擇關聯向量值、介詞選擇關聯向量值、并列結果選擇向量值、和形容詞選擇關聯向量值,其中,?
所述名詞選擇關聯向量值通過下述式計算得到,即,在修飾詞m是名詞(NN),它的中心詞h是名詞(NN)或者動詞(VV)的情況下,詞語關系的特征向量值fj(xik)為:?
所述介詞選擇關聯向量值通過下述式計算得到,即,在修飾詞m是介?詞(PP),它的中心詞h是動詞(VV)或名詞(NN)的情況下,詞語關系的特征向量值fj(xik)為:?
所述并列結果選擇關聯向量值通過下述式計算得到,即,在修飾詞m是并列連詞(CC),它的中心詞h是動詞(VV)、名詞(NN)或形容詞(JJ),詞語關系的特征向量值fj(xik)為:?
所述形容詞選擇關聯向量值通過下述式計算得到,即,在修飾詞m是形容詞(JJ),它的中心詞h是名詞(NN),詞語關系的特征向量值fj(xik)為:?
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310729563.X/1.html,轉載請聲明來源鉆瓜專利網。





