[發明專利]一種提取論文標題中的問題方法對的方法有效
| 申請號: | 201810219012.1 | 申請日: | 2018-03-16 |
| 公開(公告)號: | CN108460021B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 趙姝;王炤宇;陳潔;段震;陳喜;張燕平 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/253 |
| 代理公司: | 合肥市長遠專利代理事務所(普通合伙) 34119 | 代理人: | 段曉微;葉美琴 |
| 地址: | 230000*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 論文 標題 中的 問題 方法 | ||
本發明公開了一種提取論文標題中的問題方法對的方法,包括:對論文標題進行標準化處理,在論文標題中進行論文關鍵詞匹配`,得到初步問題方法概念集合;利用黑名單、白名單對初步問題方法概念集合進行調整,得到有效問題方法概念集合;構建用于分隔問題和方法的目標語法模式集合;根據目標語法模式集合和有效問題方法概念集合從論文標題中提取出問題概念集合和方法概念集合;利用笛卡爾積搭配問題概念集合和方法概念集合,得到論文標題中的問題方法對。
技術領域
本發明涉及文本信息提取技術領域,尤其涉及一種提取論文標題中的問題方法對的方法。
背景技術
科學文獻分析中的一個關鍵要素是分析某個領域具有哪些研究問題,以及目前主要有哪些方法可以用來解決這些問題。隨著時代的高速發展,科研能力的不斷進步,科學文獻的總數也在快速增長,因此越來越需要一種技術可以從大量的科學文獻中提取問題方法對,從而進一步分析科技發展趨勢,幫助優化研究資源配置。
論文作為科學文獻的重要組成部分,具有時效性高、總量大、增長速度快等特點,是對科研工作者最新研究成果的分享和總結。論文具有非常豐富的信息,但是同時也具有高度的復雜性和弱結構化的特點。盡管可以人工閱讀論文,分析出論文所研究問題與所使用方法的組合,但是論文的特點決定了這種方法是低效的,由于論文具有高時效性,在需要追蹤新技術時甚至是不可取的。因此,如何在大量科學文獻,特別是弱結構的論文中提取出問題方法對,來追蹤技術發展是一個非常有價值的工作。
發明內容
基于背景技術存在的技術問題,本發明提出了一種提取論文標題中的問題方法對的方法;
本發明提出的一種提取論文標題中的問題方法對的方法,包括:
S1、對論文標題進行標準化處理,在論文標題中進行論文關鍵詞匹配,得到初步問題方法概念集合;
S2、利用黑名單、白名單對初步問題方法概念集合進行調整,得到有效問題方法概念集合;
S3、構建用于分隔問題和方法的目標語法模式集合;
S4、根據目標語法模式集合和有效問題方法概念集合從論文標題中提取出問題概念集合和方法概念集合;
S5、利用笛卡爾積搭配問題概念集合和方法概念集合,得到論文標題中的問題方法對。
優選地,步驟S1,具體包括:
S11、將論文標題文本轉換為小寫,并對其進行分詞、詞性標注和詞性還原;
S12、在論文標題中進行論文關鍵詞匹配,得到初步問題方法概念集合。
優選地,步驟S2,具體包括:
S21、根據預設的停用概念列表建立黑名單,根據預設的定向抽取概念列表建立白名單;
S22、從初步問題方法概念集合中刪除黑名單中的概念,得到微調初步問題方法概念集合;
S23、向微調初步問題方法概念集合中添加白名單中的概念,得到有效問題方法概念集合。
優選地,步驟S3,具體包括:
S31、獲取語法模式串集合中的一個語法模式串;
S32、解析出該語法模式串包含的語法模式,得到語法模式列表;
S33、重復執行步驟S31、S32,直到語法模式串集合中所有語法模式串均執行步驟S31、S32操作后,合并所有的語法模式列表,得到用于分隔問題和方法的目標語法模式集合,其中,目標語法模式集合包括位置標記和分隔標記,位置標記用于標明該位置所屬的概念屬于問題還是方法;分隔標記用于標明何種語法模式可以用來指示問題和方法的位置。
優選地,步驟S4,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810219012.1/2.html,轉載請聲明來源鉆瓜專利網。





