[發(fā)明專利]一種基于定義與關(guān)系的術(shù)語抽取方法有效
| 申請?zhí)枺?/td> | 201710833633.4 | 申請日: | 2017-09-15 |
| 公開(公告)號: | CN107577670B | 公開(公告)日: | 2020-09-22 |
| 發(fā)明(設(shè)計)人: | 許斌;李思良;楊玉基 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 朱琨 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 定義 關(guān)系 術(shù)語 抽取 方法 | ||
1.一種基于定義與關(guān)系的術(shù)語抽取方法,其特征在于,所述方法包括以下步驟:
步驟1:對html格式的文本進(jìn)行預(yù)處理與初始化,包括:
步驟1.1:識別文本中的img和table標(biāo)簽,過濾掉圖片和表格;
步驟1.2:過濾掉文本中的html標(biāo)簽,提取標(biāo)簽中的文本內(nèi)容;
步驟1.3:從清理后的文本中找出符號與公式,并進(jìn)行過濾;
步驟1.4:根據(jù)句號、逗號、分號與問號對文本進(jìn)行重新分段;
步驟1.5:利用ansj分詞工具對文本進(jìn)行中文分詞,并計算每個詞的詞頻;
步驟2:依據(jù)步驟1處理后得到的文本,進(jìn)行基于定義的術(shù)語候補抽取,生成一個術(shù)語候補集,包括:
步驟2.1:根據(jù)文本特點總結(jié)出定義模板,定義模板為正則表達(dá)式形式,包含被定義部分和定義部分兩個匹配內(nèi)容;
步驟2.2:通過步驟2.1制定的模板從文本中抽取出被定義部分和定義部分,被定義部分被標(biāo)記為右型候補,設(shè)置為低置信度,定義部分被標(biāo)記為左型候補,設(shè)置為高置信度;
步驟2.3:將新發(fā)現(xiàn)的術(shù)語候補添加到當(dāng)前的術(shù)語候補集中;
步驟3:利用步驟1處理后得到的文本與步驟2生成的所述術(shù)語候補集,進(jìn)行基于上下位關(guān)系的術(shù)語候補抽取,生成新的術(shù)語候補集,包括:
步驟3.1:根據(jù)文本特點總結(jié)出上下位模板;
步驟3.2:通過步驟3.1制定的模板從文本中抽取出下位部分和上位部分,若上位部分是已發(fā)現(xiàn)的術(shù)語,則將下位部分設(shè)置為右型候補,設(shè)置為低置信度,若下位部分是已發(fā)現(xiàn)的術(shù)語,則將上位部分設(shè)置為左型候補,設(shè)置為高置信度;
步驟3.3:將步驟3.2中發(fā)現(xiàn)的術(shù)語候補添加到當(dāng)前的術(shù)語候補集中;
步驟4:利用步驟1處理后得到的文本與步驟3生成的所述術(shù)語候補集,進(jìn)行基于整體部分關(guān)系的術(shù)語候補抽取,生成新的術(shù)語候補集,包括:
步驟4.1:根據(jù)文本特點總結(jié)出整體部分模板;
步驟4.2:通過步驟4.1制定的模板從文本中抽取出左部分和右部分,設(shè)左部分為s1,右部分為s2,s1的分詞結(jié)果為w1_1……w1_m,s2的分詞結(jié)果為w2_1……w2_n,首先檢驗w1_m與w2_n中是否恰有一個是已經(jīng)發(fā)現(xiàn)的術(shù)語,若w1_m是術(shù)語,則取s2作為術(shù)語候補,若w2_n是術(shù)語,則取s1作為術(shù)語候補;
步驟4.3:對步驟4.2中發(fā)現(xiàn)的術(shù)語候補tc,檢查分詞后所有與tc有整體部分關(guān)系的詞中術(shù)語所占的比例,若比例大于等于給定閾值則將tc設(shè)置為低置信度Rc加入到當(dāng)前術(shù)語候補集中;
步驟4.4:尋找出當(dāng)前術(shù)語候補集中滿足通過步驟4.1制定的模板的術(shù)語候補tc,并從中抽取“左部分”s1和“右部分”s2,若tc是高置信度術(shù)語候補,則設(shè)置s1為高置信度Rc,設(shè)置s2為高置信度Lc,當(dāng)tc是低置信度術(shù)語候補時,若tc為Lc則僅取s1,將其設(shè)置為低置信度Rc,否則僅取s2,將其設(shè)置為低置信度Lc,此后將tc從當(dāng)前術(shù)語候補集中刪除;
步驟4.5:將步驟4.4中產(chǎn)生的新術(shù)語候補添加到當(dāng)前術(shù)語候補集中;
步驟5:利用步驟1處理后得到的文本與步驟4生成的所述術(shù)語候補集,進(jìn)行基于并列關(guān)系的術(shù)語候補抽取,生成新的術(shù)語候補集,包括:
步驟5.1:人工根據(jù)文本特點總結(jié)出并列關(guān)系模板;
步驟5.2:通過步驟5.1制定的并列關(guān)系模板從利用步驟1處理后得到的文本中抽取出并列關(guān)系;
步驟5.3:設(shè)步驟5.2抽取出的并列內(nèi)容為s1……sn,sn的分詞結(jié)果w1……wm,設(shè)ti=wi……wm,其中1=i=m,計算機統(tǒng)計s1ti、……、sn-1ti,這n-1個字符串的出現(xiàn)次數(shù)之和Ti,設(shè)Ta為Ti中最大的值,此時對應(yīng)的ti為ta,若Ta大于給定閾值則將s1ta、……、sn-1ta、sn這n個詞語設(shè)置為高置信度Rc;
步驟5.4:計算機將步驟5.3中產(chǎn)生的術(shù)語候補添加到當(dāng)前術(shù)語候補集中;
步驟6:對步驟5生成的所述術(shù)語候補集中的每一個術(shù)語候補進(jìn)行基于構(gòu)詞規(guī)則的檢查,生成一個通過構(gòu)詞規(guī)則檢查的術(shù)語候補集,包括:
步驟6.1:人工對于一般術(shù)語的構(gòu)成進(jìn)行分析,總結(jié)出根據(jù)置信度高低不同的術(shù)語構(gòu)詞規(guī)則;
步驟6.2:根據(jù)步驟6.1得到的構(gòu)詞規(guī)則對當(dāng)前術(shù)語候補集中的術(shù)語候補進(jìn)行檢測,將所有滿足構(gòu)詞規(guī)則的術(shù)語候補添加到所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集中;
步驟6.3:對所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集中的每一個低置信度術(shù)語候補tc,檢查已經(jīng)發(fā)現(xiàn)的術(shù)語中是否存在一個術(shù)語t使得t為tc的后綴,若不存在這樣的t,則將tc從所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集中剔除;
步驟6.4:計算機對所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集中的每一個低置信度術(shù)語候補tc,計算tc在文本當(dāng)中的出現(xiàn)次數(shù),若小于給定閾值則將tc從所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集中剔除;
步驟7:利用步驟5生成的所述術(shù)語候補集和步驟6生成的所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集對術(shù)語候補進(jìn)行邊界檢測,生成新的術(shù)語集,包括:
步驟7.1:人工構(gòu)建邊界詞表;
步驟7.2:根據(jù)步驟7.1得到的邊界詞表以及當(dāng)前術(shù)語候補集和所述通過構(gòu)詞規(guī)則檢查的術(shù)語候補集,進(jìn)行術(shù)語邊界檢測;
步驟8:統(tǒng)計步驟7生成的所述術(shù)語集的元素個數(shù)為n,將n與步驟7執(zhí)行前的術(shù)語集的元素個數(shù)進(jìn)行比較,若二者相等則程序結(jié)束,返回當(dāng)前的術(shù)語集;否則,執(zhí)行步驟9;
步驟9:計算機修正分詞結(jié)果,返回至步驟3,包括:
步驟9.1:設(shè)t為術(shù)語集中的一個術(shù)語字符串,當(dāng)前分詞系統(tǒng)將其分為n個詞:w1、……、wn,其對應(yīng)的詞性為p1、……、pn,將t作為新詞添加到分詞系統(tǒng)中,使其分詞結(jié)果為一個詞,若pn為名詞類n、形容詞類a或動詞類v,則t的詞性與pn相同,否則設(shè)置t的詞性為名詞類n;
步驟9.2:更新當(dāng)前全部的分詞結(jié)果,重新計算所有詞的詞頻,跳轉(zhuǎn)到步驟3。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710833633.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種穩(wěn)定可靠的玻璃架自鎖固定裝置
- 下一篇:一種客車燈罩承載工裝
- 一種領(lǐng)域術(shù)語抽取的方法
- 醫(yī)學(xué)術(shù)語識別方法及裝置
- 術(shù)語抽取方法和裝置
- 一種醫(yī)療術(shù)語知識庫完善的方法和裝置
- 一種構(gòu)建制造領(lǐng)域術(shù)語庫的方法及系統(tǒng)
- 術(shù)語更新方法以及相關(guān)設(shè)備、裝置
- 一種醫(yī)學(xué)術(shù)語系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于多特征的術(shù)語檢索方法
- 一種術(shù)語替換方法及系統(tǒng)
- 一種標(biāo)準(zhǔn)術(shù)語確定方法、裝置及存儲介質(zhì)





