[發(fā)明專利]一種學(xué)術(shù)文本詞匯功能框架構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710203905.2 | 申請(qǐng)日: | 2017-03-30 |
| 公開(公告)號(hào): | CN107015967A | 公開(公告)日: | 2017-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 程齊凱;陸偉;楊韻寒 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F17/30;G06N5/02 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 學(xué)術(shù) 文本 詞匯 功能 框架 構(gòu)建 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于智能識(shí)別技術(shù)領(lǐng)域,具體涉及一種學(xué)術(shù)文本詞匯功能框架構(gòu)建方法。
背景技術(shù)
隨著科研社區(qū)規(guī)模的快速擴(kuò)大和學(xué)術(shù)文獻(xiàn)數(shù)量的急劇增長(zhǎng),掌握一個(gè)學(xué)科的研究進(jìn)展和知識(shí)脈絡(luò)已經(jīng)變得越來越困難。為了更好的了解和組織科學(xué)知識(shí),人們需要借助學(xué)術(shù)信息檢索工具和科學(xué)計(jì)量工具的幫助。然而,傳統(tǒng)的學(xué)術(shù)信息檢索和知識(shí)管理主要考慮的是文檔級(jí)別的信息,在文檔表示上也多采用詞袋模型。這樣的處理帶來了計(jì)算上的便利,但同時(shí)也失去了對(duì)學(xué)術(shù)文本的深層語義理解。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提出了一種學(xué)術(shù)文本詞匯功能框架構(gòu)建方法。
本發(fā)明所采用的技術(shù)方案是:一種學(xué)術(shù)文本詞匯功能框架構(gòu)建方法,其特征在于,包括以下步驟:
步驟1:定義學(xué)術(shù)文本詞匯功能的概念和類別;
步驟2:構(gòu)建學(xué)術(shù)文本詞匯功能的框架。
詞匯功能框架的提出幫助研究者明確了詞匯功能的界定范圍,不但使得文獻(xiàn)標(biāo)注的效率有所提高,而且為學(xué)術(shù)文本詞匯功能自動(dòng)識(shí)別任務(wù)提供了理論框架和基礎(chǔ)。基于詞匯功能框架的自動(dòng)識(shí)別任務(wù)應(yīng)有更高的效率和更好的效果。
附圖說明
圖1為本發(fā)明實(shí)施例的領(lǐng)域無關(guān)詞匯功能分類體系圖;
圖2為本發(fā)明實(shí)施例的學(xué)術(shù)文本詞匯功能框架示意圖。
具體實(shí)施方式
為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
本專利提出的學(xué)術(shù)文本詞匯功能框架構(gòu)建方法,作為面向詞匯功能的學(xué)術(shù)文本分析的基礎(chǔ)。學(xué)術(shù)文本詞匯功能(以下如不做特別聲明,簡(jiǎn)稱為詞匯功能)是指詞匯或者術(shù)語在文本中所承擔(dān)的角色。詞匯的功能可能多種多樣,本專利關(guān)注的是詞匯在學(xué)術(shù)文本中所承擔(dān)的角色,而不去分析其在語法層面或者其它通用語言理解任務(wù)中的所承擔(dān)的功能定義。
需要說明的是,在語言學(xué)理論中,詞匯與術(shù)語是不同的兩個(gè)概念,術(shù)語由詞匯構(gòu)成。在文專利中,具有獨(dú)立意義的最小單元往往是術(shù)語(Phrase)。本專利不嚴(yán)格區(qū)分“詞匯”和“術(shù)語”,以下如果不做特別說明,“詞匯”同“術(shù)語”將不做區(qū)別。
學(xué)術(shù)文本的詞匯功能是對(duì)詞匯在學(xué)術(shù)文本中角色的定義,嚴(yán)格來說,術(shù)語對(duì)語用的定義。在自然語言理解研究中,人們一般從三個(gè)角度對(duì)語言進(jìn)行建模,分別是語法、語義和語用。語法是對(duì)語言結(jié)構(gòu)的表示,自然語言處理中的句法分析就屬于語法分析任務(wù);語義則是對(duì)符號(hào)和內(nèi)容關(guān)系進(jìn)行處理,語義角色標(biāo)注是典型的語義分析任務(wù);語用則考慮到語言和人也即符號(hào)與人的關(guān)系,分析的是人在使用符號(hào)時(shí)的所表達(dá)的意義。本專利所指的“學(xué)術(shù)文本的詞匯功能”既有語義分析的成分,也有語用分析的成分。某些詞匯是對(duì)工具、數(shù)據(jù)、定理、公式的指代,這時(shí)候詞匯的功能表現(xiàn)的是語義層面的內(nèi)容,也即符號(hào)與內(nèi)容的對(duì)應(yīng)。另一些詞匯功能,如工具、方法等等,并不能與具體的內(nèi)容相對(duì)應(yīng),一個(gè)詞匯表現(xiàn)為什么功能,是由作者和讀者基于對(duì)文本的理解確定的,這時(shí),詞匯功能表現(xiàn)出的是語用的意義。
面對(duì)日益增多的科學(xué)文獻(xiàn),從詞匯功能角度對(duì)學(xué)術(shù)文本進(jìn)行深度語義分析已經(jīng)成為必要。基于詞匯功能框架的學(xué)術(shù)文本的詞匯功能分析可以幫助人們快速的查找和理解科學(xué)文獻(xiàn),挖掘科學(xué)概念之間的關(guān)聯(lián)。本專利將對(duì)學(xué)術(shù)文本的詞匯功能進(jìn)行界定,并構(gòu)建學(xué)術(shù)文本詞匯功能框架,為詞匯功能分析做基礎(chǔ)。
最早出現(xiàn)的直接相關(guān)研究成果是Kondo等發(fā)表于2009年的研究成果。Kondo和Nanba等發(fā)表于2009的文章和發(fā)表于2010年的文章最早提出將學(xué)術(shù)文本中的詞匯根據(jù)其功能進(jìn)行分類,Kondo等人的研究將處理對(duì)象限定為學(xué)術(shù)文獻(xiàn)的標(biāo)題,將其中詞匯的功能分為“方法(Method)”、“問題(Goal)”、“其它(Other)”三類,例如,文本“本文將支持向量機(jī)用于文本分類”中,“支持向量機(jī)”構(gòu)成了方法類詞匯,“文本分類”則被標(biāo)記為“問題”。
Gupta和Manning在2011年發(fā)表在IJNLP會(huì)議上的文獻(xiàn)中將詞匯功能定義為三類:話題(Focus)、技術(shù)方法(Technique)和應(yīng)用(Application)。
在Gupta的工作基礎(chǔ)上,Tsai等將詞匯功能分為“方法(Technique)”和“應(yīng)用(Application)”兩類,前者標(biāo)明文獻(xiàn)使用的方法技術(shù),后者是方法技術(shù)所解決的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710203905.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種視覺傳達(dá)用多功能手繪板
- 下一篇:觸控顯示面板和觸控顯示裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種用學(xué)術(shù)術(shù)語導(dǎo)航網(wǎng)絡(luò)學(xué)術(shù)資源的方法
- 一種學(xué)術(shù)指數(shù)體系及其發(fā)布方法
- 學(xué)術(shù)資料搜索方法和裝置
- 一種基于用戶行為的學(xué)術(shù)資源推薦方法
- 加權(quán)學(xué)術(shù)績(jī)效考核方法及系統(tǒng)
- 學(xué)術(shù)項(xiàng)目推薦
- 用于學(xué)術(shù)會(huì)議的學(xué)術(shù)報(bào)告管理方法和管理系統(tǒng)
- 一種醫(yī)學(xué)術(shù)語系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種適用于標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語的驗(yàn)證系統(tǒng)及方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





