[發(fā)明專利]依存句法樹(shù)構(gòu)建系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201811617007.2 | 申請(qǐng)日: | 2018-12-27 |
| 公開(kāi)(公告)號(hào): | CN109710937A | 公開(kāi)(公告)日: | 2019-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 石進(jìn);韓進(jìn);金鵬 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 南京中高專利代理有限公司 32333 | 代理人: | 祝進(jìn) |
| 地址: | 210023 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)境 構(gòu)建 構(gòu)建系統(tǒng) 片段序列 集合 核心詞 句子 歸屬模塊 獲取模塊 去除 歸屬 | ||
本發(fā)明涉及語(yǔ)境核心詞提取領(lǐng)域,具體為一種基于語(yǔ)境的依存句法樹(shù)構(gòu)建系統(tǒng),其包括:獲取模塊,獲取句子;切分模塊,通過(guò)核心詞判斷將句子切分形成片段序列;語(yǔ)境歸屬模塊,判斷片段序列之間的中間詞的歸屬語(yǔ)境;最小語(yǔ)境集合模塊,去除單個(gè)詞的語(yǔ)境,以獲得最小語(yǔ)境集合;以及構(gòu)建依存句法樹(shù)模塊,基于最小語(yǔ)境集合構(gòu)建依存句法樹(shù)。實(shí)現(xiàn)了基于最小語(yǔ)境進(jìn)行依存句法樹(shù)的構(gòu)建。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)境核心詞提取領(lǐng)域,具體為一種基于語(yǔ)境的依存句法樹(shù)構(gòu)建系統(tǒng)。
背景技術(shù)
關(guān)鍵詞提取領(lǐng)域有很多的研究成果,主要可以分為基于統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的方法與基于語(yǔ)義的方法。在基于語(yǔ)義相關(guān)性的關(guān)鍵詞提取算法,通過(guò)詞共現(xiàn)信息計(jì)算短語(yǔ)之間的語(yǔ)義相關(guān)度,將文件描繪成一個(gè)相關(guān)度圖。基于語(yǔ)義分析的關(guān)鍵詞提取方法雖然比前兩種方法提取的關(guān)鍵詞質(zhì)量更高,但還存在著詞義消歧的問(wèn)題,難以獲得最小語(yǔ)境。
基于上述技術(shù)問(wèn)題,需要設(shè)計(jì)一種新的基于語(yǔ)境的依存句法樹(shù)構(gòu)建系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于語(yǔ)境的依存句法樹(shù)構(gòu)建系統(tǒng)。
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于語(yǔ)境的依存句法樹(shù)構(gòu)建系統(tǒng),包括:
獲取模塊,獲取句子;
切分模塊,通過(guò)核心詞判斷將句子切分形成片段序列;
語(yǔ)境歸屬模塊,判斷片段序列之間的中間詞的歸屬語(yǔ)境;
最小語(yǔ)境集合模塊,去除單個(gè)詞的語(yǔ)境,以獲得最小語(yǔ)境集合;以及
構(gòu)建依存句法樹(shù)模塊,基于最小語(yǔ)境集合構(gòu)建依存句法樹(shù)。
進(jìn)一步,所述獲取模塊適于獲取句子,即
初始化詞字典,針對(duì)訓(xùn)練文本集中每個(gè)文本D,將文本D拆分成句子集合S。
進(jìn)一步,所述切分模塊適于通過(guò)核心詞判斷將句子切分形成片段序列,即基于熵對(duì)比的語(yǔ)境核心詞判斷算法將句子切分形成片段序列,即
遍歷句子集合S,將其中每一個(gè)句子拆分成n個(gè)詞形成詞集合WS;
針對(duì)詞集合WS中每個(gè)詞wi,i∈n計(jì)算其與詞集合中任一詞的共現(xiàn)次數(shù);
查找詞字典中詞wi,將詞wi與詞集合WS中的其它詞wj,j∈n按<wj,count>累加;
針對(duì)詞字典,進(jìn)行遍歷,求出每個(gè)詞wi的語(yǔ)境共現(xiàn)頻率向量Vi,即將所有與詞wi具有共現(xiàn)關(guān)系的詞,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,獲得語(yǔ)境共現(xiàn)頻率向量Vi;
式中為其它詞wj的共現(xiàn)頻率,為其它詞wj和詞wi的共現(xiàn)次數(shù);
基于公式計(jì)算出每個(gè)詞wi的語(yǔ)境共現(xiàn)熵值H(Vi),完成整個(gè)文本的訓(xùn)練;
針對(duì)文本集進(jìn)行文本分類處理后得到的文本分類集中任一句子集合S,將其拆分成詞集合WS,遍歷其中每個(gè)詞wi,根據(jù)詞字典中詞wi對(duì)應(yīng)的熵,逐一比較各詞的語(yǔ)境共現(xiàn)熵值,具有最大語(yǔ)境共現(xiàn)熵值的詞即為核心詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811617007.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于管理語(yǔ)境相關(guān)信息的系統(tǒng)、移動(dòng)站、方法和計(jì)算機(jī)程序產(chǎn)品
- 文字輸入過(guò)程中的自動(dòng)校對(duì)方法
- 使用與信息關(guān)聯(lián)的語(yǔ)義語(yǔ)境便于協(xié)作搜索
- 記錄語(yǔ)境信息以及追溯生詞語(yǔ)境的方法和系統(tǒng)
- 基于語(yǔ)境的鍵盤
- 用于管理語(yǔ)音系統(tǒng)中的對(duì)話語(yǔ)境的系統(tǒng)和方法
- 用于管理語(yǔ)境相關(guān)信息的系統(tǒng)、移動(dòng)站和方法
- 減少主觀干擾內(nèi)容的方法和系統(tǒng)
- 依存句法樹(shù)構(gòu)建系統(tǒng)
- 會(huì)話語(yǔ)境劃分方法與系統(tǒng)、交互方法與交互系統(tǒng)
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 用于跟蹤構(gòu)建系統(tǒng)產(chǎn)品的合規(guī)信息的系統(tǒng)和方法
- 一種基于案例的仿真系統(tǒng)動(dòng)態(tài)構(gòu)建系統(tǒng)及方法
- 虛擬化軟件構(gòu)建系統(tǒng)
- 一種基于XML的DDS分布式系統(tǒng)自動(dòng)構(gòu)建方法
- 構(gòu)建系統(tǒng)
- 構(gòu)建會(huì)話理解系統(tǒng)的系統(tǒng)和方法
- 一種基于大數(shù)據(jù)的Linux系統(tǒng)下的工具構(gòu)建方法
- 基于腦電圖的智能輔助診斷系統(tǒng)
- 知識(shí)圖譜的構(gòu)建方法及裝置
- 復(fù)雜電磁環(huán)境構(gòu)建系統(tǒng)、車輛電磁抗干擾測(cè)試系統(tǒng)及方法





