[發明專利]一種生成古漢語標注模型的方法和系統有效
| 申請號: | 202011617362.7 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112613316B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 胡韌奮;李紳;諸雨辰 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N20/20;G06N3/084 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 許天易 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生成 古漢語 標注 模型 方法 系統 | ||
本發明提供了一種生成古漢語標注模型的方法和系統,包括S1、訓練生成能夠表征上下文語義的語言模型;S2、構建多任務聯合學習模型;S3、同時訓練所述語言模型和多任務聯合學習模型,所述語言模型和多任務聯合學習模型組成古漢語標注模型。通過本發明中,可以同時對標點、引號、書名、實體進行標注,而且在自動標點、書名、實體識別等任務上的F1指標達到90%以上,實現了和人工相仿的古漢語信息標注效果。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種生成古漢語標注模型的方法和系統。
背景技術
漢語典籍是中華傳統文化的重要載體,但古漢語表達的一個重要特點是缺乏標點,且語法和語義表達與現代白話文有較大差異。因此,在古籍整理和出版工作中,往往需要依靠專家進行人工斷句標點、專名標注、注釋、翻譯等,以輔助現代人理解古文。人工整理古籍需要花費大量的時間和精力,且對整理者的古漢語知識有很高要求,以至于大量古籍因缺乏人力而處于未經整理狀態。由于大量古籍的斷句標點、專名標注尚未實現,注釋、翻譯等工作則更無人問津。伴隨大數據、人工智能等技術迅猛發展,為提升古籍整理效率,出現了一批計算機輔助古籍整理的工作,例如:
(1)北京大學的俞敬松、魏一和中國社會科學院的張永偉《基于BERT的古文斷句研究與應用》,采用了基于BERT的神經網絡標點模型,初步實現了計算機在不超過長度為64字文本上的自動標點。
南京師范大學李斌等人的《一種古漢語文本的一體化自動詞法分析方法及系統》和程寧等人的《基于BiLSTM-CRF的古漢語自動斷句與詞法分析一體化研究》,采用Bi-LSTM-CRF結構的神經網絡,實現了對古文斷句和詞法標記(分詞及詞性)的識別。
北京科技大學謝永紅等《一種面向中醫古籍文獻的命名實體識別方法和裝置》提出了一種基于領域詞表的短語自動挖掘方法,從而對中醫古籍文獻中的命名實體進行識別。
北京信息科技大學劉秀磊等《基于LatticeLSTM的古文領域命名實體識別方法和系統》提出了一種基于LatticeLSTM的古籍命名實體識別方法。
(2)基于多任務的聯合學習技術在對話系統的自然語言理解領域有少量方案。鞠劍勛等人的《自然語言理解方法及系統》采用詞向量作為輸入,使用長短時記憶神經網絡(LSTM)模型進行編碼,再將其輸出與正確答案進行比較,訓練過程中對第一損失和第二損失求和,作為模型優化目標。鄂海紅等人的《雙向的意圖槽值交叉相關的任務型對話理解系統及方法》采用詞向量作為輸入,采用雙向長短時記憶神經網絡(Bi-LSTM)模型進行編碼,與前一個技術相比,在解碼階段其增加了額外的SF子網絡和ID子網絡,將意圖學習的信息引入槽值學習,并將槽值學習的信息引入意圖學習。該方法分階段地訓練兩個模型,并利利用子網絡學習不同階段模型彼此之間的影響,通過反復迭代,使得兩個模型參數相互影響,與前一個技術不同的是,該技術中兩個模型的優化目標是獨立的。
但上述技術存在如下缺陷:
(1)對古籍文本的處理僅針對單獨的任務(如標點、實體)或面向專門的領域(如中醫),缺乏通用的古籍文本信息標注技術。
(2)現有技術未考慮到古籍標點和實體等任務存在知識關聯性,僅針對單任務建模,模型很難捕捉不同任務之間的依賴性。試看下例:
此即昔人所謂東坡詩如大家婦女大踏步走出山谷便不免花面丫頭屏角窺人扭捏作態之意(柳亞子《磨劍室雜拉話》)
該例的理解關鍵在于“山谷”指黃庭堅(實體知識),柳亞子意在比較蘇東坡和黃庭堅兩人的詩風,如果單獨學習實體表示,則容易誤標點為:“……大踏步走出山谷,便不免花面丫頭……。”而正確標點應為:“此即昔人所謂東坡詩如大家婦女,大踏步走出,山谷便不免花面丫頭,屏角窺人,扭捏作態之意。”
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011617362.7/2.html,轉載請聲明來源鉆瓜專利網。





