[發明專利]一種基于滑動語義串匹配的句法分析方法有效
| 申請號: | 201310492589.7 | 申請日: | 2013-10-18 |
| 公開(公告)號: | CN103500160A | 公開(公告)日: | 2014-01-08 |
| 發明(設計)人: | 王偉;黃德根 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 李寶元;梅洪玉 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 滑動 語義 匹配 句法 分析 方法 | ||
1.一種基于滑動語義串匹配的句法分析方法,其特征在于以下步驟:?
一、扁平分層的短語結構句法樹表示?
采用層疊組塊分析方法,句法分析的結果采用短語結構二叉樹表示,在表示時,對通常的短語句法樹進行了層次的扁平化轉換;?
二、N元上下文有關文法的規則提取?
第一,按照語義詞典,對用于訓練的句法樹庫中句子的詞標注對應的語義碼;對于單義詞,由機器按照語義詞典中詞的語義碼一一對應實現自動標注;對于多義詞,根據詞所在上下文中的信息,由人從語義詞典中選定最適合的語義碼進行標注,由n個詞構成的句子的語義碼的標注為S1,S2,S3,…,Sn;?
第二,按照扁平層次化的短語結構句法樹的層次,對每層兩兩組合成的一個組塊Chunk進行語義標注;該組塊的語義碼按照組塊的中心詞位置,從前一層的詞或組塊的語義碼繼承下來,作為當前新組塊的語義碼;組塊的語義標注從第0層開始,自底向上逐層進行,直到完成最后層的根組塊的語義標注,即完成對整個句法樹的語義標注;組塊語義碼的格式為:“組塊名XPx:語義碼Sx”;?
第三,對每一層所有基元,按每移動一個基元位置,以N個基元長度進行切分分組,一個基元是指一個詞的語義碼或者一個組塊的語義碼;即以“長度為N的窗口”從每一層的前端開始滑動,每滑過一個基元位置,就從該窗口中抽取構成組塊的規則;該規則是指,當前窗口中的N元基元信息,如何進行組塊而成為下一層中的信息;把所有層的所有的每N長度的模板及其對應的組塊信息都提取出來;對于每層的結尾部分不足N長度劃分的,則采用實際長度進行提取,直到模板長度為1為止;?
對用于訓練的句法樹庫以外的句子的組塊規則,采用機器即時學習的方法獲得;?
三、基于滑動語義串匹配的句法分析模型?
采用滑動語義串匹配方法,即SMOSS模型,進行句法分析,工作過程參見表1;?
表1:基于SMOSS模型的句法分析的基本過程表?
(一)N元語義碼串與模板庫模板的匹配操作?
a.首先將待匹配的N元長度的語義碼串與模板庫中N元長度的語義模板,從開始基元到結尾基元逐個進行對應匹配;?
b.每個N元待匹配語義碼串上的語義碼與模板對應位置的語義碼的匹配,是按照語義詞典的編碼格式由大類到小類順序逐次進行匹配,若某類匹配失敗則不進行余下類別的匹配;在匹配過程中,每個類級匹配成功一次,就得到該語義碼在該類級的得分,將語義碼在各個匹配類級上的得分進行累計,就是該語義碼的匹配得分;?
c.當對N元語義碼串中的N個語義碼都匹配成功后,將這N個語義碼的各個匹配得分按照權重進行匯總,就是該N元語義碼串匹配到的模板的得分;同時將該模板的匹配得分直接傳遞到模板所對應的組塊信息上,用于后續操作;?
(二)一個N元語義碼串匹配出0個模板的處理?
如果一個N元語義串匹配模板的結果是0,即沒有相匹配的模板,則采用降元的方式處理;?當在N元長度上的語義碼串匹配結果是0,則降元到N-1元的語義碼串長度上進行匹配,如果匹配結果還是0,則再降元到N-2元的語義碼串長度上進行匹配;以此類推,直到語義碼串長度降元到2為止;每降元一次,語義碼串匹配的模板的權重也相應降低;?
(三)一個N元語義碼串匹配出多個不同模板的處理?
對于一個語義碼串匹配出多個模板的結果;則將該語義碼串所對應的多個不同的模板都取出來,供隨后的對這些模板分別取對應組塊信息的操作;?
(四)一個N元模板對應到多個不同組塊信息的處理?
對于一個模板對應多種不同的組塊結果,則將同一模板所對應的多個不同組塊的信息都取出來,供隨后的對組塊信息進行匯總的操作;?
(五)一個N元語義串中未知語義碼的處理?
一個句子中如果有些未知詞并不在語義詞典中,那么這些未知詞對應的就是未知語義碼;對于未知語義碼采用通配符“?????”方式進行模板匹配;未知語義碼的匹配得分按語義碼匹配計算時全匹配的滿分來計算;整個匹配模板的得分是模板中各個已知語義碼的匹配得分之和,加上模板中各個未知語義碼的匹配滿分之和。?
(六)組塊信息統計匯總的操作?
當在某一層所有的通過滑動移位獲取的N元語義碼串都匹配完后,對這些模板所對應的組塊信息進行匯總;在匯總時,首先在每一個基元位置上,統計與其相關的N元模板對應的組塊信息對該位置上的各種信息的投票,然后根據該位置上這些相關的組塊信息的匹配得分,這個得分是在模板匹配時傳遞過來的,將投票結果和組塊信息的匹配得分按照匯總算法得到匯總得分;選擇匯總得分最大的前p個作為候選的組塊信息;然后從中選擇第一最大得分的組塊信息,作為組塊成下一層的信息;?
若匯總結果中有并列最大得分的,先順序選擇第一個作為選定,并暫假定這種選定的結果是對的,接著向下執行;若執行到下一層或下幾層發現錯了,則通過回溯處理,啟發式地指定候選中的某一個,直到或者能有正確結果,或者全部候選都試完為止。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310492589.7/1.html,轉載請聲明來源鉆瓜專利網。





