[發明專利]一種中文語句隱喻識別系統在審
| 申請號: | 202010624750.1 | 申請日: | 2020-07-02 |
| 公開(公告)號: | CN111859934A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 朱毅;郭樂詩 | 申請(專利權)人: | 大連外國語大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06F40/30;G06F16/951;G06F16/35 |
| 代理公司: | 北京興智翔達知識產權代理有限公司 11768 | 代理人: | 蔣常雪 |
| 地址: | 116044 *** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 語句 隱喻 識別 系統 | ||
1.一種中文隱喻識別系統,其特征在于,包括:中文輸入模塊和隱喻識別模塊,其中:
所述中文輸入模塊用于輸入待識別中文;
所述隱喻識別模塊用于根據所述待識別中文和訓練后的隱喻識別模型,獲取所述待識別中文的隱喻類型,訓練后的隱喻識別模型是以樣本語句為訓練樣本、以樣本語句對應的隱喻類型為標簽進行訓練得到。
2.根據權利要求1所述的中文隱喻識別系統,其特征在于,還包括數據展示模塊,所述數據展示模塊用于從網站中爬取目標中文語句,并對所述目標中文語句的隱喻類型進行標注,將所述目標中文語句作為所述樣本語句。
3.根據權利要求1所述的中文隱喻識別系統,其特征在于,還包括隱喻分析模塊,所述隱喻分析模塊用于對所述樣本語句使用隨機森林進行訓練,獲取訓練后的隱喻識別模型。
4.根據權利要求2所述的中文隱喻識別系統,其特征在于,所述數據展示模塊用于從網站中爬取目標中文語句,具體通過如下方法實現:
通過selenium對預設數據庫進行目標中文語句爬取,通過selenium中的webdriver模塊來獲取網頁請求信息,成功訪問網頁后,定位講話標題,使用find_elements_by_xpath來獲得講話的標題,定位講話的詳細信息時,需要獲取新的鏈接,獲取新的網頁請求,通過selenium的模擬用戶點擊操作進入講話詳情信息界面,獲取所述目標中文語句的詳細信息。
5.根據權利要求4所述的中文隱喻識別系統,其特征在于,還包括:
當爬取成功當下講話時,要想爬取下一條目標中文語句的詳細信息,需要返回標題界面,使用selenium中的back()函數返回到上一個標題界面,將語句套在循環中進行遍歷,直到爬取完最后一個講話詳情信息。
6.根據權利要求3所述的中文隱喻識別系統,其特征在于,所述隱喻分析模塊用于對所述樣本語句使用隨機森林進行訓練,獲取訓練后的隱喻識別模型,具體包括:
對爬取的目標中文語句進行數據清洗和分詞操作,將分好詞的結果使用gensim中的Word2Vec來進行模型訓練;
根據使用Word2Vec訓練出的結果對訓練集的目標中文語句使用K-Means進行聚類編碼;
使用隨機森林算法中的RandomForestClassifier()函數對訓練集進行建模分析。
7.根據權利要求1所述的中文隱喻識別系統,其特征在于,所述隱喻類型具體包括建設隱喻、旅途隱喻、容器隱喻、管道隱喻、擬人隱喻、方位隱喻、家庭隱喻、概念隱喻、實體隱喻和戰爭隱喻。
8.根據權利要求1所述的中文隱喻識別系統,其特征在于,還包括隱喻類型標注模塊,所述隱喻類型標注模塊用于添加任一樣本語句的隱喻類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連外國語大學,未經大連外國語大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010624750.1/1.html,轉載請聲明來源鉆瓜專利網。





