[發明專利]一種基于半監督學習的漢語并列結構自動識別方法在審
| 申請號: | 202110026618.5 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112651241A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 邵玉;楊丹;龍華;杜慶治;張海玲;楊陳菊 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/30;G06K9/62;G06N3/08 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 漢語 并列 結構 自動識別 方法 | ||
本發明涉及一種基于半監督學習的漢語并列結構自動識別方法,語料識別技術領域。首先,根據并列結構的外部特征和內部成分的語義相似性,在CRF模型中融入詞語長度、是否連接詞、同義詞編碼三個語言學特征,考察不同語言學特征及其組合對并列結構的識別效果的影響;其次,利用大量未標注語料訓練詞向量,再將訓練出的連續的詞向量轉化為離散高維的適合線性CRF的表達,此種表達即作為無監督特征融入到CRF模型中,考察不同無監督特征及其組合的識別效果。最后,將語言學特征與無監督特征作不同的組合實驗,考察兩種類型特征的共同作用是否會對識別效果產生更大的影響。本發明提取的無監督特征能有效應用于并列結構的識別中,提高了模型識別的F值。
技術領域
本發明涉及一種基于半監督學習的漢語并列結構自動識別方法,語料識別技術領域。
背景技術
并列結構的識別問題可轉化為序列標注問題,因而目前主流的識別方法是基于統計的有監督學習方法,利用機器學習模型與語言學特征的有機結合來選取最佳標注序列,完全依賴于標注語料進行研究。另外,還有基于規則和規則與統計相融合的方法。基于規則即由人為制定符合并列結構形式的規則,根據一系列規則“套出”句子中的并列短語。以往研究表明基于統計較基于規則的方法效果相對較優,原因主要是規則的建立具有較強的主觀性,“機動性”較差,且規則之間易產生互斥,并列短語除單層短語外還存在著復雜多變的嵌套結構,這使規則無法完全覆蓋。
基于統計的方法取得的效果相對較好,但其對標注語料的依賴難以適應小語料研究,從語料中獲取的有監督特征涵蓋面狹隘,無法有效利用未標注語料信息補足特征單一的缺陷,而人工擴大標注語料庫則需要付出大量的人力、時間成本。因此并列結構研究語料不足也成為其自動識別的一道障礙。
鑒于擴大標注語料耗費時間長,而存在的未標注語料豐豐富,可以充分利用未標注語料內容來影響基于有監督學習的并列結構的識別效果。隨著自然語言中詞向量的引入,有學者對如何將詞向量更好的應用于半監督模型這一問題做了探索,并在命名體識別中得到了有效驗證。本發明由此根據詞向量的應用,在CRF模型中融合無監督學習特征,提出基于半監督的并列結構自動識別方法。
發明內容
本發明要解決的技術問題是提供一種基于半監督學習的漢語并列結構自動識別方法,用以解決目前并列結構標注語料規模較小、現有技術沒有充分利用未標注語料中語義信息的問題。
本發明的技術方案是:一種基于半監督學習的漢語并列結構自動識別方法,其特征在于:
Step1:將有標注語料按比例劃分成測試集與訓練集兩部分。
Step2:基于有標注語料提取并列結構的語言學特征,語言學特征包括詞語長度、是否連接詞、同義詞編碼。
所述Step2的具體步驟為:
Step2.1:計算詞語長度,將詞長作為一個語言學特征。
詞語長度:詞語長度在漢語中似乎是個比較“普通”的特征,但僅從并列結構的外部形態上看,詞長仍然是一個顯性特征存在,或多或少會對并列結構產生影響,因而依然將此列為一個語言學特征,作為對比實驗進行考察。
Step2.2:判斷當前詞語是否是并列連接詞,將此作為一個語言學特征,當前詞語是連接詞則標注為Y,不是則標注為N。
是否連接詞:并列連接詞是并列結構的一個顯象標志,是各個并列成分的“紐帶”。從語義上看,連接詞將兩個相近的成分結合在一起,使句子意思更進一步。從外部形態上看,連接詞標示了并列結構的位置,是并列結構存在的“地標”。
Step2.3:根據同義詞編碼表提取每個詞對應的編碼作為特征,折射出詞語之間的相似性關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110026618.5/2.html,轉載請聲明來源鉆瓜專利網。





