[發明專利]一種中醫針灸領域事件觸發詞的自動抽取方法及系統在審
| 申請號: | 201710245442.6 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN107092674A | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 孫水華 | 申請(專利權)人: | 福建工程學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州市鼓樓區京華專利事務所(普通合伙)35212 | 代理人: | 林曉琴 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中醫 針灸 領域 事件 觸發 自動 抽取 方法 系統 | ||
1.一種中醫針灸領域事件觸發詞的自動抽取方法,其特征在于:包括:
步驟S1、由人工預定義中醫針灸事件模板;
步驟S2、由人工根據預定義的中醫針灸事件模板構建中醫針灸事件的標注語料庫;
步驟S3、設計初始觸發詞表構建法,用于根據所述標注語料庫構建中醫針灸事件的初始觸發詞表;
步驟S4、設計觸發詞擴展算法,用以對所述初始觸發詞表進行擴展,得到中醫針灸事件的觸發詞擴展表;
步驟S5、設計候選觸發詞抽取算法,用以基于所述中醫針灸事件觸發詞擴展表對候選針灸事件的觸發詞進行抽取;
步驟S6、設計觸發詞過濾規則集,用以對候選針灸事件的觸發詞進行過濾;
步驟S7、將所述初始觸發詞表構建法、觸發詞擴展算法、候選觸發詞抽取算法以及觸發詞過濾規則構建為觸發詞自動抽取模型,從而實現中醫針灸領域事件觸發詞的自動抽取。
2.根據權利要求1所述的一種中醫針灸領域事件觸發詞的自動抽取方法,其特征在于:所述標注語料庫包括訓練集和測試集,其中,訓練集用于構建所述初始觸發詞表,測試集用于測試評估所述觸發詞自動抽取模型;所述自動抽取方法還包括:
步驟S8、在所述測試集上對所述觸發詞自動抽取模型采用準確率P、召回率R和F-值三個通用的測評指標進行評價,該三個通用的測評指標的具體定義如下公式所示:
3.根據權利要求2所述的一種中醫針灸領域事件觸發詞的自動抽取方法,其特征在于:所述步驟S1是通過對中醫針灸領域文本的分析,同時借鑒ACE語料庫中文通用領域事件的定義以及中文事件的標注方法,預定義了治療事件模板和保健事件模板,所述治療事件模板和保健事件模板即構成所述中醫針灸事件模板。
4.根據權利要求2所述的一種中醫針灸領域事件觸發詞的自動抽取方法,其特征在于:所述步驟S2中醫針灸領域事件的標注語料庫的構建步驟:
(1)從網站上爬取一定時期發表的中醫針灸領域文獻的摘要信息;
(2)從爬取的摘要信息中隨機選取多篇文獻;
(3)按照預定義的中醫針灸事件模板及其標注格式逐篇逐句進行人工標注,分別構建訓練集和測試集,形成所述標注語料庫。
5.根據權利要求2所述的一種中醫針灸領域事件觸發詞的自動抽取方法,其特征在于:所述步驟S3的初始觸發詞表構建法是:分析所述訓練集,逐篇逐句收集人工標注的中醫針灸事件觸發詞及其類別,在訓練語料范圍內統計每個觸發詞觸發事件的個數、觸發詞出現在句子中的個數、各種事件類型出現的個數以及句子總數的信息,并利用這些統計量計算各個事件觸發詞的權重,從而構建初始中醫針灸事件觸發詞表;
所述事件觸發詞的權重的計算公式為:Scorei=TF(wi)*IDF(wi) (1);
其中,TF為詞頻,表示某個觸發詞wi對該觸發詞所屬事件類別的貢獻程度,IDF為逆向文件頻率,表示觸發詞wi在訓練語料中出現的頻度;
TF的計算公式為:TF(wi)=ni/mi (2);其中,ni為觸發詞wi在所有訓練語料中觸發的某類事件的個數,mi為訓練語料中該類事件的總個數;
IDF的計算公式為:其中,Ni為訓練語料中句子總數,Mi為訓練語料中含有觸發詞wi的句子數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建工程學院,未經福建工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710245442.6/1.html,轉載請聲明來源鉆瓜專利網。





