[發(fā)明專利]化學(xué)表達(dá)式提取方法、裝置及設(shè)備在審
| 申請?zhí)枺?/td> | 201911331077.6 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111159337A | 公開(公告)日: | 2020-05-15 |
| 發(fā)明(設(shè)計)人: | 易顯維 | 申請(專利權(quán))人: | 中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 北京市蘭臺律師事務(wù)所 11354 | 代理人: | 張峰 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 化學(xué) 表達(dá)式 提取 方法 裝置 設(shè)備 | ||
本發(fā)明提供一種化學(xué)表達(dá)式提取方法、裝置及設(shè)備,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。本發(fā)明可以通過獲取化學(xué)題文本數(shù)據(jù),對化學(xué)題文本數(shù)據(jù)進行分詞操作,得到化學(xué)題文本數(shù)據(jù)對應(yīng)的至少一個分詞,并確定至少一個分詞中,與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離小于預(yù)設(shè)閾值的分詞為目標(biāo)分詞,然后提取目標(biāo)分詞,可以得到化學(xué)題文本數(shù)據(jù)中的化學(xué)表達(dá)式,從而實現(xiàn)基于聚類分析從化學(xué)題文本數(shù)據(jù)中提取化學(xué)表達(dá)式。相對于現(xiàn)有的化學(xué)表達(dá)式提取方法而言,可以有效減少人工標(biāo)注過程所耗費的大量的時間和成本,另外,還可以有效提高化學(xué)表達(dá)式提取的速度。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種化學(xué)表達(dá)式提取方法、裝置及設(shè)備。
背景技術(shù)
網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的題庫中的化學(xué)題目中經(jīng)常包含大量化學(xué)表達(dá)式,將文本中的化學(xué)表達(dá)式提取出來,建立化學(xué)表達(dá)式與化學(xué)題目之間的全文索引,可以使得前端通過搜索某個化學(xué)表達(dá)式即可檢索到對應(yīng)的化學(xué)題目。
目前,從化學(xué)題目中提取化學(xué)表達(dá)式的方法通常為:人工對化學(xué)題目中的化學(xué)表達(dá)式進行標(biāo)注,然后根據(jù)人工標(biāo)注的信息,從化學(xué)題目中提取化學(xué)表達(dá)式。例如,可以對某個化學(xué)題目中的化學(xué)表達(dá)式對應(yīng)的文本內(nèi)容標(biāo)注一個標(biāo)簽,該標(biāo)簽可以用于指示該部分內(nèi)容為化學(xué)表達(dá)式,然后,可以從化學(xué)題目中提取標(biāo)注有該標(biāo)簽的文本內(nèi)容,即可提取到對應(yīng)的化學(xué)表達(dá)式。
但是,上述現(xiàn)有的化學(xué)表達(dá)式提取方法中,人工標(biāo)注過程耗費了大量的時間和成本。
發(fā)明內(nèi)容
本發(fā)明提供一種化學(xué)表達(dá)式提取方法、裝置及設(shè)備,可以以更低的成本從化學(xué)題目中提取化學(xué)表達(dá)式。
第一方面,本發(fā)明實施例提供一種化學(xué)表達(dá)式提取方法,該方法包括:
獲取化學(xué)題文本數(shù)據(jù);對化學(xué)題文本數(shù)據(jù)進行分詞操作,得到化學(xué)題文本數(shù)據(jù)對應(yīng)的至少一個分詞;確定至少一個分詞中,與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離小于預(yù)設(shè)閾值的分詞為目標(biāo)分詞;提取目標(biāo)分詞,得到化學(xué)題文本數(shù)據(jù)中的化學(xué)表達(dá)式。
可選地,所述確定至少一個分詞中,與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離小于預(yù)設(shè)閾值的分詞為目標(biāo)分詞之前,該方法還包括:
獲取樣本化學(xué)題文本數(shù)據(jù);采用預(yù)設(shè)算法對樣本化學(xué)題文本數(shù)據(jù)進行聚類分析,得到樣本化學(xué)題文本數(shù)據(jù)對應(yīng)的多個聚類中心;從多個聚類中心中,確定得到化學(xué)表達(dá)式聚類中心。
可選地,所述采用預(yù)設(shè)算法對樣本化學(xué)題文本數(shù)據(jù)進行聚類分析,包括:
采用K均值聚類算法對樣本化學(xué)題文本數(shù)據(jù)進行聚類分析。
可選地,所述對化學(xué)題文本數(shù)據(jù)進行分詞操作,包括:
采用隱馬爾可夫模型,對化學(xué)題文本數(shù)據(jù)進行分詞操作。
可選地,所述確定至少一個分詞中,與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離小于預(yù)設(shè)閾值的分詞為目標(biāo)分詞,包括:
對至少一個分詞中的任一個分詞:計算分詞與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離;判斷分詞與化學(xué)表達(dá)式聚類中心之間的距離是否小于預(yù)設(shè)閾值;若是,則確定分詞為目標(biāo)分詞。
可選地,所述計算分詞與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離,包括:
根據(jù)歐式空間坐標(biāo)確定化學(xué)表達(dá)式聚類中心的中心位置;將分詞轉(zhuǎn)換為對應(yīng)的詞向量;采用余弦相似度算法計算詞向量與中心位置之間的距離,得到分詞與化學(xué)表達(dá)式聚類中心之間的距離。
可選地,所述將分詞轉(zhuǎn)換為對應(yīng)的詞向量,包括:
根據(jù)預(yù)設(shè)深度網(wǎng)絡(luò),將分詞轉(zhuǎn)換為對應(yīng)的詞向量;其中,預(yù)設(shè)深度網(wǎng)絡(luò)包括隱含層,隱含層用于輸出分詞對應(yīng)的詞向量。
可選地,該方法還包括:
將化學(xué)表達(dá)式保存于數(shù)據(jù)庫的化學(xué)表達(dá)式字段中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司,未經(jīng)中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911331077.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:屬性信息修改方法及相關(guān)裝置
- 下一篇:一種新型螺旋攪龍實驗臺





