[發(fā)明專利]一種基于深度學習的短文本依存分析方法有效
| 申請?zhí)枺?/td> | 201710934201.2 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107656921B | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 肖仰華;謝晨昊;梁家卿;崔萬云 | 申請(專利權(quán))人: | 上海數(shù)眼科技發(fā)展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06N3/08 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 韓鳳 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學習 文本 依存 分析 方法 | ||
本發(fā)明公開了一種基于深度學習的短文本依存分析方法,包括:步驟1)從搜索引擎日志中,獲取用戶查詢語句所在的HTML文件,作為訓(xùn)練數(shù)據(jù)集;步驟2)根據(jù)訓(xùn)練數(shù)據(jù)集生成查詢語句的依存分析樹;步驟3)使用依存樹訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)模型的詞性標注器和句法分析器。本發(fā)明利用現(xiàn)用的句子級別的依存分析器,自動生成海量的短文本依存分析數(shù)據(jù)集,并用多種方法對生成的數(shù)據(jù)集進行降噪和優(yōu)化。我們在此數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練了短文本的依存分析模型,實驗表明此模型在短文本上的標注效果相比句子級別的依存分析器有大幅度的提高。
技術(shù)領(lǐng)域
本發(fā)明屬于一種基于深度學習的短文本依存分析方法。
背景技術(shù)
短語結(jié)構(gòu)和依存結(jié)構(gòu)是目前句法分析中研究最廣泛的兩類文法結(jié)構(gòu)。依 存文法最早由法國語言學家L.Tesniere在其著作《結(jié)構(gòu)句法基礎(chǔ)》(1959年) 中提出。依存語法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu), 主張句子中核心動詞是支配其它成分的中心成分,而它本身卻不受其它任何 成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者。
例如對于文本“Its apple watch charging stand is my favorite stand.“,進行 依存分析后得到的依存分析樹如圖2:
從依存分析樹中,可以清楚地得到句子整體的語法結(jié)構(gòu),詞與詞之間的 修飾關(guān)系,并可以一定程度上理解句子的語義。
短文本的依存分析對于理解短文本的語法成分、詞語詞性和語義至關(guān)重 要。考慮如下搜索查詢以及其對應(yīng)的語法結(jié)構(gòu),如圖3:
短文本“cover iphone 6plus”的結(jié)果表明這個短語的主體保護殼(cover), 用戶的需求是要找到iphone的保護殼,而不是iphone。基于這個知識,搜索 引擎就可以合理的展示iphone保護殼的相關(guān)廣告。對于“distance earthmoon”, 主體是距離(distance),表明用戶的意圖是詢問地球(earth)和月球(moon)之間的 距離。對于faucet adapterfemale,意圖則是查找龍頭適配器。總之,如果能 正確的對短文本的依存關(guān)系進行識別,就可以抽取出短文本中的核心主體與 修飾之間的關(guān)系,更好的理解短文本的語義。
對短文本進行依存分析的主要挑戰(zhàn)有:
1.在短文本中,通常沒有完整的語法要素幫助進行分析。實際上,短文 本通常具有很高的二義性。例如,短文本“kids toys”可能表示”toys forkids” 也可能表示“kidswith toys”,這兩種情況下toys和kids的依存關(guān)系邊是完 全相反的,如圖4。
2.至今并沒有短文本上進行依存分析的語言學規(guī)則。依存分析的人工標 注過程中,可能出現(xiàn)缺乏標準導(dǎo)致的標注不清。并且進行人工標注的代價是 巨大的,一個依存分析標注集往往需要數(shù)年的時間才能完成。
在依存分析中,短文本的語義信息主要包含于依存分析邊中。即對于短 文本中的任意兩個單詞x,y∈q,判斷x和y之間是否存在依存關(guān)系,以及 如果存在的話,是哪一種依存關(guān)系。
要進行這種判斷,可以利用的短文本的語義主要分為兩大類:上下文無 關(guān)信息和上下文有關(guān)信息。
●上下文無關(guān)信息:利用上下文無關(guān)信息時,我們直接對P(e|x,y)建模, 其中e表示x,y對應(yīng)的依存關(guān)系邊(x→y或x←y)。這種建模方式是上下 文無關(guān)的,因為我們并不考慮x和y在輸入中的相對位置關(guān)系。
要獲取P(e|x,y),一種方式是通過有標注的語料庫如Google的 syntactic ngram數(shù)據(jù)集。對于兩個單詞x和y,我們統(tǒng)計在語料庫中x修 飾y的次數(shù)和y修飾x的次數(shù),以此估計P(e|x,y)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海數(shù)眼科技發(fā)展有限公司,未經(jīng)上海數(shù)眼科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710934201.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種數(shù)顯壓力表的測試裝置
- 下一篇:一種線纜護套擠出機





