[發明專利]一種自然語言句法分析的方法有效
| 申請號: | 201910258045.1 | 申請日: | 2019-04-01 |
| 公開(公告)號: | CN110020434B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 秦一男;朱江 | 申請(專利權)人: | 北京語自成科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100080 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 句法 分析 方法 | ||
1.一種自然語言句法分析的方法,包括:
S1、讀取待解析的語句數據結構,并針對待解析的語句數據結構進行預處理操作,其中,所述語句數據結構包括待解析的語句的詞語序列;
S2、針對每一個第一詞語列表,讀取待解析的經過前述的預處理的語句數據結構:如果在待解析的語句中存在謂語動詞單元,那么生成第二詞語列表;如果在待解析的語句中不存在謂語動詞單元,那么改為采用概率結合句法規則的方法或依存分析方法對該語句進行分析,取前述分析的結果作為計算機的最終分析結果,進而清除對應的第一詞語列表且不生成第二詞語列表;
S3、針對所述語句數據結構中的每一個謂語元素,生成對應的謂語向量;所述謂語向量包括并列引導語元素、從屬引導語元素、主語元素、謂語元素、第一位置賓語元素、第二位置賓語元素;
其中,所述謂語元素是對應的謂語動詞單元,或對應的相鄰并列的謂語動詞組合單元;謂語元素編號是對應的謂語動詞單元編號,或對應的相鄰并列的謂語動詞組合單元編號;
其中,所述并列引導語元素的可能取值是編號小于對應的謂語元素編號的用于連接句子的并列關聯詞單元之一,或空單元;不用于連接句子的并列關聯詞單元,不能作為并列引導語元素的可能取值;
其中,所述從屬引導語元素的可能取值是編號小于對應的謂語元素編號的從屬關聯詞單元之一,或編號小于對應的謂語元素編號的相鄰并列的從屬關聯詞組合單元之一,或編號小于對應的謂語元素編號的疑問詞單元之一,或編號小于對應的謂語元素編號的相鄰并列的疑問詞組合單元之一,或空單元;
其中,所述主語元素的可能取值是編號小于對應的謂語元素編號的基本名詞單元之一,或編號小于對應的謂語元素編號的相鄰并列的基本名詞組合單元之一,或編號小于對應的謂語元素編號的不定式元素對應的不定式向量之一,或編號小于對應的謂語元素編號的動名詞-現在分詞元素對應的動名詞-現在分詞向量之一,或比對應的謂語元素編號小的謂語元素對應的謂語向量之一,或空單元;
其中,所述第一位置賓語元素的可能取值是編號大于對應的謂語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的謂語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或編號大于對應的謂語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的不定式元素對應的不定式向量之一,或編號大于對應的謂語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的動名詞-現在分詞元素對應的動名詞-現在分詞向量之一,或比對應的謂語元素編號大的謂語元素對應的謂語向量之一,或空單元;
其中,如果對應的謂語元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的第一位置賓語元素是一個基本名詞單元或一個相鄰并列的基本名詞組合單元,那么所述第二位置賓語元素的可能取值是編號大于對應的第一位置賓語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的第一位置賓語元素編號且小于在所述謂語元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或比對應的謂語元素編號大的謂語元素對應的謂語向量之一,或空單元;如果對應的謂語元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的第一位置賓語元素既不是一個基本名詞單元又不是一個相鄰并列的基本名詞組合單元,那么所述第二位置賓語元素的取值是空單元;如果對應的謂語元素是由既不可接雙賓語又不可接賓語結合賓語補足語的動詞構成的單元,那么所述第二位置賓語元素的可能取值是空單元;其中,所述的可接雙賓語的動詞或可接賓語結合賓語補足語的動詞以及所述的既不可接雙賓語又不可接賓語結合賓語補足語的動詞,通過查詢詞典或統計的方式預先歸納并給出;
S4、針對每一個不定式元素,生成對應的不定式向量;針對每一個動名詞-現在分詞元素,生成對應的動名詞-現在分詞向量;針對每一個過去分詞元素,生成對應的過去分詞向量;針對每一個介詞元素,生成對應的介詞向量;根據所述不定式元素、不定式第一位置賓語元素、不定式第二位置賓語元素的可能取值,獲取每一個不定式元素對應的不定式向量的所有可能取值;根據所述動名詞-現在分詞元素、動名詞-現在分詞第一位置賓語元素、動名詞-現在分詞第二位置賓語元素的可能取值,獲取每一個動名詞-現在分詞元素對應的動名詞-現在分詞向量的所有可能取值;根據所述過去分詞元素、過去分詞賓語元素的可能取值,獲取每一個過去分詞元素對應的過去分詞向量的所有可能取值;根據所述介詞元素、介詞賓語元素的可能取值,獲取每一個介詞元素對應的介詞向量的所有可能取值;
其中,所述不定式向量包括不定式元素、不定式第一位置賓語元素、不定式第二位置賓語元素;
所述不定式元素是對應的不定式動詞單元,或對應的相鄰并列的不定式動詞組合單元;不定式元素編號是對應的不定式動詞單元編號,或對應的相鄰并列的不定式動詞組合單元編號;
所述不定式第一位置賓語元素的可能取值是編號大于對應的不定式元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的不定式元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或編號大于對應的不定式元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的不定式元素對應的不定式向量之一,或編號大于對應的不定式元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的動名詞-現在分詞元素對應的動名詞-現在分詞向量之一,或比對應的不定式元素編號大的謂語元素對應的謂語向量之一,或空單元;
如果對應的不定式元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的不定式第一位置賓語元素是一個基本名詞單元或一個相鄰并列的基本名詞組合單元,那么所述不定式第二位置賓語元素的可能取值是編號大于對應的不定式第一位置賓語元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的不定式第一位置賓語元素編號且小于在所述不定式元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或比對應的不定式元素編號大的謂語元素對應的謂語向量之一,或空單元;如果對應的不定式元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的不定式第一位置賓語元素既不是一個基本名詞單元又不是一個相鄰并列的基本名詞組合單元,那么所述不定式第二位置賓語元素的取值是空單元;如果對應的不定式元素是由既不可接雙賓語又不可接賓語結合賓語補足語的動詞構成的單元,那么所述不定式第二位置賓語元素的取值是空單元;其中,所述的可接雙賓語的動詞或可接賓語結合賓語補足語的動詞以及所述的既不可接雙賓語又不可接賓語結合賓語補足語的動詞,通過查詢詞典或統計的方式預先歸納并給出;
其中,所述動名詞-現在分詞向量包括動名詞-現在分詞元素、動名詞-現在分詞第一位置賓語元素、動名詞-現在分詞第二位置賓語元素;
所述動名詞-現在分詞元素是對應的動名詞-現在分詞單元,或對應的相鄰并列的動名詞-現在分詞組合單元;動名詞-現在分詞元素編號是對應的動名詞-現在分詞單元編號,或對應的相鄰并列的動名詞-現在分詞組合單元編號;
所述動名詞-現在分詞第一位置賓語元素的可能取值是編號大于對應的動名詞-現在分詞元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的動名詞-現在分詞元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或編號大于對應的動名詞-現在分詞元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的不定式元素對應的不定式向量之一,或編號大于對應的動名詞-現在分詞元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的動名詞-現在分詞元素對應的動名詞-現在分詞向量之一,或比對應的動名詞-現在分詞元素編號大的謂語元素對應的謂語向量之一,或空單元;
如果對應的動名詞-現在分詞元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的動名詞-現在分詞第一位置賓語元素是一個基本名詞單元或一個相鄰并列的基本名詞組合單元,那么所述動名詞-現在分詞第二位置賓語元素的可能取值是編號大于對應的動名詞-現在分詞第一位置賓語元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的動名詞-現在分詞第一位置賓語元素編號且小于在所述動名詞-現在分詞元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或比對應的動名詞-現在分詞元素編號大的謂語元素對應的謂語向量之一,或空單元;如果對應的動名詞-現在分詞元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,且對應的動名詞-現在分詞第一位置賓語元素既不是一個基本名詞單元又不是一個相鄰并列的基本名詞組合單元,那么所述動名詞-現在分詞第二位置賓語元素的取值是空單元;如果對應的動名詞-現在分詞元素是由既不可接雙賓語又不可接賓語結合賓語補足語的動詞構成的單元,那么所述動名詞-現在分詞第二位置賓語元素的取值是空單元;其中,所述的可接雙賓語的動詞或可接賓語結合賓語補足語的動詞以及所述的既不可接雙賓語又不可接賓語結合賓語補足語的動詞,通過查詢詞典或統計的方式預先歸納并給出;
其中,所述過去分詞向量包括過去分詞元素、過去分詞賓語元素;
所述過去分詞元素是對應的過去分詞單元,或對應的相鄰并列的過去分詞組合單元;過去分詞元素編號是對應的過去分詞單元編號,或對應的相鄰并列的過去分詞組合單元編號;
如果對應的過去分詞元素是由可接雙賓語的動詞或可接賓語結合賓語補足語的動詞構成的單元,那么所述過去分詞賓語元素的可能取值是編號大于對應的過去分詞元素編號且小于在所述過去分詞元素之后出現的第一個謂語元素編號的基本名詞單元之一,或編號大于對應的過去分詞元素編號且小于在所述過去分詞元素之后出現的第一個謂語元素編號的相鄰并列的基本名詞組合單元之一,或比對應的過去分詞元素編號大的謂語元素對應的謂語向量之一,或空單元;如果對應的過去分詞元素是由既不可接雙賓語又不可接賓語結合賓語補足語的動詞構成的單元,那么所述過去分詞賓語元素的取值是空單元;其中,所述的可接雙賓語的動詞或可接賓語結合賓語補足語的動詞以及所述的既不可接雙賓語又不可接賓語結合賓語補足語的動詞,通過查詢詞典或統計的方式預先歸納并給出;
其中,所述介詞向量包括過介詞元素、介詞賓語元素;
所述介詞元素是對應的介詞單元,或對應的相鄰并列的介詞組合單元;介詞元素編號是對應的介詞單元編號,或對應的相鄰并列的介詞組合單元編號;
所述介詞賓語元素的可能取值是編號大于對應的介詞元素編號且在所述介詞元素之后出現的第一個基本名詞單元,或編號大于對應的介詞元素編號且在所述介詞元素之后出現的第一個相鄰并列的基本名詞組合單元,或編號大于對應的介詞元素編號且在所述介詞元素之后出現的第一個動名詞-現在分詞向量,或編號大于對應的介詞元素編號且在所述介詞元素之后出現的第一個不定式向量,或編號大于對應的介詞元素編號且與所述介詞元素編號的數字順序相鄰的介詞元素對應的介詞向量,或比對應的介詞元素編號大的謂語元素對應的謂語向量之一,或空單元;
S5、將不定式向量、動名詞-現在分詞向量、過去分詞向量和介詞向量,統稱為輔助向量;針對待解析語句中的每一個輔助向量,分別任取一個該輔助向量對應的可能取值,從而獲得一組全體輔助向量對應的可能取值;將前述的一組全體輔助向量對應的可能取值看作一個集合,稱為一個輔助系統;
S6、任意給定一個規范主干系統,搭配一個對應的輔助系統;將前述的輔助系統中的每一個輔助向量內部的每一個不是向量的元素全都替換為對應的編號;替換編號之后,檢查該輔助系統;如果在該輔助系統中出現下述不合理的情況,那么清除該輔助系統;如果在該輔助系統中沒有出現下述不合理的情況,那么保留該輔助系統;將保留下來的輔助系統稱為規范輔助系統;接下來提到的謂語向量,都是指前述給定的規范主干系統中的謂語向量;
S6.1、如果在兩個不同的輔助向量中出現相同的編號或相同的謂語向量或相同的不定式向量或相同的動名詞-現在分詞向量或相同的介詞向量,那么該輔助系統不合理,清除該輔助系統;
S6.2、如果一個輔助向量內部和一個謂語向量內部同時出現相同的編號或相同的謂語向量或相同的不定式向量或相同的動名詞-現在分詞向量,那么該輔助系統不合理,清除該輔助系統;
S6.3、如果在一個輔助向量內部出現兩個順序逆反的編號,那么該輔助系統不合理,清除該輔助系統;
S6.4、將兩兩之間存在元素代入關系的任意兩個輔助向量,全都進行等量代換;如果出現向量之間的代入交叉矛盾,那么該輔助系統不合理,清除該輔助系統;如果在等量代換之后出現兩個順序逆反的編號,那么該輔助系統不合理,清除該輔助系統;
S6.5、將兩兩之間存在元素代入關系的任意一個輔助向量和任意一個謂語向量,全都進行等量代換;如果出現向量之間的代入交叉矛盾,那么該輔助系統不合理,清除該輔助系統;如果在等量代換之后出現兩個順序逆反的編號,那么該輔助系統不合理,清除該輔助系統;
S6.6、檢查過后,將編號還原為對應的元素,以備后續的各項操作使用;
S7、生成剩余名詞系統和A-B-C聯合系統;
S7.1、任意給定一個規范主干系統和一個與該規范主干系統對應的規范輔助系統,將沒有進入前述的規范主干系統和規范輔助系統的剩余的基本名詞單元和相鄰并列的基本名詞組合單元的全體看作一個集合,將這個集合稱為一個剩余名詞系統;將剩余名詞系統中的每一個元素,稱為一個剩余名詞元素;一個剩余名詞元素的編號,是該剩余名詞元素對應的基本名詞單元或基本名詞組合單元的編號;針對每一個剩余名詞元素,生成一個對應的剩余名詞向量;所述剩余名詞向量,僅包括剩余名詞元素,即剩余名詞向量與剩余名詞元素是一一對應的;
S7.2、按照S7.1所述的方式互相對應的一個規范主干系統、一個規范輔助系統和一個剩余名詞系統,就構成一個A-B-C聯合系統;
S8、任意給定一個A-B-C聯合系統,針對該A-B-C聯合系統執行整體插空操作;每一個空位,在一次整體插空操作中至多可以接收一個向量,也可以不接收任何向量,即無插空操作;在整體插空操作之前,清除空單元;在整體插空操作中,將構造空位且接收其他向量進入該空位的向量,記為接收向量;將插入其他向量的空位的向量,記為插入向量;
S8.1、在前述的A-B-C聯合系統中,對每一個向量內部的每一個可以用其他向量進行代換的元素,全都使用對應的向量進行等量代換,無論對應的向量是謂語向量還是輔助向量;執行前述的等量代換,直至將每一個向量內部的其他向量全都替換完畢;經過前述的等量代換,如果某一個向量被代入另一個向量內部,那么取消代入另一個向量內部的向量在A-B-C聯合系統中的原有位置,從而令經過前述的等量代換操作的兩個向量完全融合;通過等量代換,將A-B-C聯合系統中原有的向量,全都轉化為相互之間不存在元素代入關系的新的向量;以等量代換為界限,將等量代換之前的A-B-C聯合系統中的向量稱為第I類向量,將等量代換之后的A-B-C聯合系統中的向量稱為第II類向量;顯然,某一個第I類向量和某一個第II類向量,可以是同一個向量,即一個向量在等量代換的之前和之后可以不發生變化;
S8.2、在A-B-C聯合系統中進行第一輪整體插空操作:任取一個第II類向量ω,作為第一輪整體插空操作的接收向量;按照預定的方向逐一標注向量ω中的每一個元素的順序值;按照已經標注的順序值,任取向量ω中的第i個元素,僅在該元素的第一側構造唯一的空位;造空之后,任取一個排除前述的向量ω之外的第II類向量μ,作為第一輪整體插空操作的插入向量;以整體插空的方式,將向量μ插入前述第i個元素對應的空位,進而生成一個新的向量,將這個新生成的向量記為[ω]i+μ;將A-B-C聯合系統中經過整體插空操作而獲得的向量,統稱為第III類向量;每一輪整體插空標注的順序值,僅限于在這一輪整體插空過程中使用;
S8.3、在A-B-C聯合系統中進行第二輪整體插空操作:取第III類向量[ω]i+μ作為第二輪整體插空操作的接收向量;按照預定的方向,對從向量[ω]i+μ中的第一側第一個元素開始直到向量[ω]i+μ包含的向量μ內部的第二側第一個元素為止的每一個元素,標注順序值;向量[ω]i+μ中的其余元素,全都不標注順序值;按照已經標注的順序值,取第j個元素,僅在該元素的第一側構造唯一的空位;造空之后,任取一個之前任何步驟都沒有使用過的第II類向量ξ,作為第二輪整體插空操作的插入向量;以整體插空的方式將向量ξ插入前述第j個元素對應的空位,進而生成一個新的向量,將新生成的向量記為[[ω]i\μ]j+ξ;或者
取第III類向量[ω]i+μ作為第二輪整體插空操作的接收向量;按照預定的方向對向量[ω]i+μ中的每一個元素標注順序值;按照已經標注的順序值,任取向量[ω]i+μ中的第k個元素,僅在該元素的第一側構造唯一的空位;造空之后,任取一個之前任何步驟都沒有使用過的第II類向量ξ,作為第二輪整體插空操作的插入向量;以整體插空的方式將向量ξ插入前述第k個元素對應的空位,進而生成一個新的向量,將新生成的向量記為([ω]i+μ)k+ξ;按照該方法進行整體插空操作,如果在執行完S8.4之后出現雷同的結果,那么將雷同的結果合并為一個結果,即將雷同的拼合向量合并為一個拼合向量;
S8.4、在前述的A-B-C聯合系統中,按照下述的方式反復執行S8.3給出的整體插空操作:取前一輪整體插空操作獲得的新生成的向量,作為新一輪整體插空操作的接收向量,且任取一個之前任何步驟都沒有使用過的第II類向量,作為新一輪整體插空操作的插入向量;反復執行整體插空操作,直至將所有的第II類向量全部插入空位完畢,記為窮盡全部插入向量,且在窮盡全部插入向量的同時獲得一個第III類向量;將窮盡全部插入向量的同時獲得的第III類向量,記為拼合向量;S8.3共包含2種整體插空操作方法,對于S8.3中的整體插空操作方法的選擇,前后步驟要保持一致;將每一輪整體插空操作所采用的第II類向量按順序依次排列,直至窮盡全部插入向量,就構成了A-B-C聯合系統對應的一個插空方案;反復執行從S8.2到S8.4的操作,窮盡插空方案所涉及到的每一輪插空操作中的每一個接收向量內部的每一個元素對應的空位,即窮盡插空方案所涉及到的每一個拼合向量;
S8.5、檢查S8.4生成的結果:將拼合向量替換成編號;如果在一個拼合向量內部出現兩個順序逆反的編號,那么該拼合向量不合理,清除該拼合向量;如果在一個拼合向量內部沒有出現順序逆反的編號,那么該拼合向量是合理的,保留該拼合向量;
S8.6、在將前述的A-B-C聯合系統中的第I類向量全都轉化為第II類向量之后,首先將該A-B-C聯合系統中的每一個第II類向量全都替換成對應的編號,然后執行前述的整體插空操作;按照任意給定的一個該A-B-C聯合系統對應的插空方案,在每一輪整體插空操作中,在接收向量內部的每一個元素的第一側全都構造一個空位,然后開始篩選合理空位;比較插入向量內部的左側或右側第一個編號與待篩選的空位對應的左側或右側相鄰編號之間的大于或小于關系,且僅選取具有避免出現編號順序逆反的大于或小于關系的空位作為合理空位,進行插空操作,其余空位都作為不合理空位,無插空操作;如果接收向量內部不存在合理空位,那么說明前述給定的插空方案不合理,結束該插空方案,并更換其他的插空方案;其中,在步驟S8中,步驟S8.2至步驟8.5的操作與步驟S8.6的操作,擇兩者中之一執行;
S8.7、運用組合數學中的乘法原理,窮盡每一張第二詞語列表對應的全部A-B-C聯合系統;進一步地,通過對每一個A-B-C聯合系統中的全體第II類向量進行排列組合,窮盡每一個A-B-C聯合系統對應的全部插空方案;再進一步地,對每一個插空方案反復執行從S8.2至S8.5的操作或者步驟S8.6的操作,直至窮盡每一個插空方案對應的全部拼合向量;
S8.8、句法規則檢查:使用自然語言的句法規則,采用概率結合句法規則的方法或依存分析方法,對保留下來的每一個合理的拼合向量及其對應的A-B-C聯合系統進行檢查;前述的使用句法規則進行檢查,應當包括運用事件賓語動詞和非事件賓語動詞的規則進行檢查;所述事件賓語動詞,是指自然語言中的只能以事件作為賓語而不能以人或事物作為賓語的動詞;所述非事件賓語動詞,是指自然語言中的只能以人或事物作為賓語而不能以事件作為賓語的動詞;事件賓語動詞和非事件賓語動詞,通過查詢詞典或統計的方式預先歸納并給出;
S8.9、在執行S8.8的同時,進行句法結構修補;所述的句法結構修補,采用概率結合句法規則的方法或依存分析方法,將遺漏的句法信息重新挖掘出來,且據此修補之前得出的句法結構中存在的缺陷;通過句法結構修補這一環節,對前述保留下來的A-B-C聯合系統中的每一個向量在句法結構方面的主要地位和次要地位進行區分和調整;
S8.10、剩余名詞檢查:采用概率結合句法規則的方法或依存分析方法,找出合理的剩余名詞和不合理的剩余名詞,且將包含不合理的剩余名詞的A-B-C聯合系統舍棄;
S9、在采用概率結合句法規則的方法或依存分析方法對待解析語句進行分析而獲得的數量充足的完整句法結構中,找出符合以經過S8保留下來的若干個A-B-C聯合系統所刻畫的待解析語句的句法結構的基本框架的最合適的完整句法結構;
S10、采用語義處理的方法,找出滿足以S9生成的若干個完整句法結構為約束的最合適的語義關系,進而將該語義關系對應的前述的完整句法結構作為最終的句法分析結果;
其中,所述S1中的所述的預處理操作包括:
S1.1、對于待解析的語句中的每個詞的詞性,進行計算機自動分析和標注,生成詞法分析的結果;
S1.2、對于待解析的語句中的謂語動詞、基本名詞短語、基本形容詞短語和基本副詞短語,進行計算機自動分析和標注;對于相鄰并列的名詞短語、相鄰并列的形容詞短語和相鄰并列的副詞短語,進行計算機自動分析和標注;
S1.3、將各種相鄰并列的詞性單元合并,且將合并之后的相鄰并列的詞性單元記為一個對應的詞性單元;
S1.4、針對S1.2和S1.3所述的待解析的語句中的語言信息,開列出一張詞語列表,記為第一詞語列表;所述第一詞語列表包括詞語、詞語對應的屬性、詞語在句子中的位置信息、標點符號及其在句子中的位置信息;
S1.5、針對詞法分析可能產生的多種不同的結果,運用組合數學的相關方法,生成多張不同的第一詞語列表,以便容納多種結構歧義;針對前述生成的多張不同的第一詞語列表,分別采用不同的編號加以區分;在所述的預處理操作中,放寬對詞法分析結果的限制,將由結構歧義導致的多種不同的詞法分析結果通過多張不同的第一詞語列表保留下來,留給后續的句法分析環節和語義處理環節加以辨別和篩選,即通過后續的句法分析環節和語義處理環節對多種不同的詞法分析結果加以約束,從而增大最終選取正確的詞法分析結果的可能性;
S1.6、針對每一個第一詞語列表,采用概率結合句法規則的方法或依存分析方法,將疑問句、省略句和倒裝句檢查出來,并對其謂語做相應的形態處理,以便后續步驟的處理;
S1.7、針對每一個第一詞語列表,剔除副詞單元、形容詞單元、相鄰并列的副詞單元、相鄰并列的形容詞單元、感嘆詞單元、非句子形態的簡單插入語成分、小品詞單元、相鄰并列的小品詞單元、無結構歧義的相鄰并列的限定詞單元和混合修飾單元;剔除非句子形態的簡單插入語單元兩側的逗號;
其中,所述步驟S2包括:
S2.1、針對每一個第一詞語列表,讀取待解析的經過前述的預處理的語句數據結構,所述經過前述的預處理的語句數據結構包括如下信息:
(1),用于連接句子的并列關聯詞單元;
(2),不用于連接句子的并列關聯詞單元;不用于連接句子的并列關聯詞單元的作用是連接句子內部的各種并列成分;
(3),謂語動詞單元、從屬關聯詞單元、基本名詞單元、不定式動詞單元、動名詞-現在分詞單元、過去分詞單元、介詞單元、相鄰并列的謂語動詞組合單元、相鄰并列的從屬關聯詞組合單元、相鄰并列的基本名詞組合單元、相鄰并列的不定式動詞組合單元、相鄰并列的動名詞-現在分詞組合單元、相鄰并列的過去分詞組合單元、相鄰并列的介詞組合單元;
(4),疑問詞單元、相鄰并列的疑問詞組合單元、有結構歧義的限定詞單元;
(5),包含謂語動詞單元的插入語成分;
(6),主要的標點符號;
S2.2、針對前述的S2.1中的語句數據結構,生成第二詞語列表;所述第二詞語列表包括前述的詞語、前述的詞語對應的屬性、依據自然語言的行文順序對前述的詞語按照從小到大的數字順序標注的編號、主要的標點符號;
其中,所述步驟S3包括:
S3.1、根據所述謂語元素、并列引導語元素、從屬引導語元素、主語元素、第一位置賓語元素、第二位置賓語元素的可能取值,獲取每一個謂語元素對應的謂語向量的所有可能取值;所述謂語向量包括并列引導語元素、從屬引導語元素、主語元素、謂語元素、第一位置賓語元素、第二位置賓語元素;
S3.2、針對待解析語句中的每一個謂語向量,分別任取一個該謂語向量對應的可能取值,從而獲得一組全體謂語向量對應的可能取值;將前述的一組全體謂語向量對應的可能取值按照固定順序排列,構成一個n行6列矩陣;將前述的一個n行6列矩陣,稱為一個主干系統;
S3.3、將任意給定的一個主干系統中的每一個謂語向量內部的每一個不是向量的元素全都替換為對應的編號;替換編號之后,檢查該主干系統;如果在該主干系統中出現下述不合理的情況,那么清除該主干系統;如果在該主干系統中沒有出現下述不合理的情況,那么保留該主干系統;將保留下來的主干系統稱為規范主干系統:
S3.3.1、檢查前述的主干系統:對比第二詞語列表,如果存在沒有進入該主干系統的用于連接句子的并列關聯詞單元或從屬關聯詞單元或相鄰并列的從屬關聯詞組合單元,那么該主干系統不合理,清除該主干系統;
S3.3.2、檢查前述的主干系統:如果在兩個不同的謂語向量中出現相同的編號或相同的謂語向量或相同的不定式向量或相同的動名詞-現在分詞向量,那么該主干系統不合理,清除該主干系統;
S3.3.3、檢查前述的主干系統:如果在一個謂語向量內部出現兩個順序逆反的編號,那么該主干系統不合理,清除該主干系統;
S3.3.4、檢查前述的主干系統:將兩兩之間存在元素代入關系的任意兩個謂語向量,全都進行等量代換;如果出現向量之間的代入交叉矛盾,那么該主干系統不合理,清除該主干系統;如果在等量代換之后出現兩個順序逆反的編號,那么該主干系統不合理,清除該主干系統;
S3.3.5、檢查過后,將編號還原為對應的元素,以備后續的各項操作使用;
其中,在執行步驟S3.2的過程中,同步執行步驟S3.3,阻止不合理的主干系統的生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京語自成科技有限公司,未經北京語自成科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910258045.1/1.html,轉載請聲明來源鉆瓜專利網。





