[發明專利]現代漢語復句關系詞自動識別方法及系統無效
| 申請號: | 201310263696.2 | 申請日: | 2013-06-27 |
| 公開(公告)號: | CN103412855A | 公開(公告)日: | 2013-11-27 |
| 發明(設計)人: | 胡泉;胡金柱;楊進才;李源;舒江波;謝芳;肖明;鄧沌華 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 現代漢語 復句 系詞 自動識別 方法 系統 | ||
1.一種現代漢語復句關系詞自動識別方法,其特征在于,包含以下步驟:
步驟1,針對輸入的一條現代漢語復句,調用自動分詞軟件進行自動分詞與詞性標注處理;
步驟2,對上述已經分詞和詞性標注后的現代漢語復句,識別其中的準關系詞;
步驟3,根據準關系詞依次到規則庫中查找并調用出相關的規則;
對每個調用出的規則,首先提取規則的約束類型與約束條件,然后根據約束條件對準關系詞所在的復句進行特征分析;
步驟4,根據對準關系詞所在的復句進行特征分析判斷的結果,確定準關系詞是否與被調出的規則的約束條件相匹配;在完全匹配時,根據相應規則的結論部分,判別相應準關系詞是否真正的關系詞;并輸出現代漢語復句關系詞的識別結果。
2.根據權利要求1所述的現代漢語復句關系詞自動識別方法,其特征在于:
步驟3所述?規則庫的基本結構分為4種類型的表格,用于存放4種不同類型的規則,這4種類型的表格分別是普通規則表、連用規則表、句式規則表和連用句式規則表。
3.根據權利要求2所述的現代漢語復句關系詞自動識別方法,其特征在于:步驟3根據準關系詞依次到規則庫中查找并調用出相關的規則的實現包括以下子步驟,
步驟3.1,查找連用句式規則表,包括首先根據步驟2所得到的準關系詞,依次查找到還有沒被識別的準關系詞;然后根據還有沒被識別的準關系詞到規則庫的連用句式規則表中查找到相應的規則;
步驟3.2,查找連用規則表,包括首先根據步驟2所得到的準關系詞,依次查找到還有沒被識別的準關系詞;然后根據準關系詞到規則庫的連用規則表中查找到相應的規則;
步驟3.3,查找句式規則表,包括首先根據步驟2所得到的準關系詞,依次查找到還有沒被識別的準關系詞;然后根據還有沒被識別的準關系詞到規則庫的句式規則表中查找到相應的規則;
步驟3.4,查找普通規則表,包括首先根據步驟2所得到的準關系詞,依次查找到還有沒被識別的準關系詞;然后根據還有沒被識別的準關系詞到規則庫的普通規則表中查找到相應的規則。
4.根據權利要求3所述的現代漢語復句關系詞自動識別方法,其特征在于:步驟3根據約束條件對準關系詞所在的復句進行特征分析包括進行以下五個方面的處理,
字符串匹配,采用字符串模式匹配方法檢查分詞與準關系詞自動識別與標注的準確性,發現標注錯誤則進行糾正;
句法成分分析,包括主語、謂語、賓語成分分析,動賓短語分析判定,語段核心詞分析判定;
分句標注與跨度計算,包括準關系詞索引號標注,當前準關系詞所在分句的索引號標注,準關系詞所在分句之間的分句跨距判定,同一分句內多個準關系詞跨距判定,包括相鄰或者不相鄰的跨距;
準關系詞的判斷處理,包括判斷是單用關系詞還是搭配關系詞,多個相鄰關系詞是連用還是非連用,兩個關系詞之間是否還有其他關系詞,兩關系詞是否異位;
詞性判定,包括整個復句句首詞詞性判定,準關系詞所在分句句首詞詞性判定,準關系詞的前一分詞詞性判定,準關系詞的后一分詞詞性判定,準關系詞左鄰接分詞的詞性判定、準關系詞右鄰接分詞的詞性判定,分句的末尾符號判定。
5.根據權利要求1或2或3或4所述的現代漢語復句關系詞自動識別方法,其特征在于:
步驟1所述的自動分詞與詞性標注處理遵循《實用現代漢語語法》和《現代漢語語料庫文本分詞規范》,英文分詞遵循《Unicode?Standard?Annex?#29:Unicode?Text?Segmentation》。
6.根據權利要求1或2或3或4所述的現代漢語復句關系詞自動識別方法,其特征在于:
步驟1所述自動分詞軟件是中國科學院計算技術研究所的《漢語詞法分析系統》(Institute?of?Computing?Technology,Chinese?Lexical?Analysis?System,縮寫ICTCLAS)。
7.一種現代漢語復句關系詞自動識別系統,其特征在于:包含以下部分,
自動分詞模塊,用于針對輸入的一條現代漢語復句,調用自動分詞軟件進行自動分詞與詞性標注處理;
準關系詞識別模塊,用于對自動分詞模塊已經分詞和詞性標注后的現代漢語復句,識別其中的準關系詞;
特征分析模塊,用于根據準關系詞識別模塊所得準關系詞依次到規則庫中查找并調用出相關的規則,對每個調用出的規則,首先提取規則的約束類型與約束條件,然后根據約束條件對準關系詞所在的復句進行特征分析;
匹配識別模塊,用于根據對準關系詞所在的復句進行特征分析判斷的結果,確定準關系詞是否與被調出的規則的約束條件相匹配;在完全匹配時,根據相應規則的結論部分,判別相應準關系詞是否真正的關系詞;并輸出現代漢語復句關系詞的識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310263696.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種云搜索平臺
- 下一篇:基于電力系統與通信系統聯合模擬的步長調節方法及裝置





