[發明專利]詞嵌入方法和設備以及詞搜索方法在審
| 申請號: | 202010310047.3 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN112733536A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 柳尚賢;金映錫;崔俊輝 | 申請(專利權)人: | 三星電子株式會社 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/295;G06F40/30;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 王兆賡;黃曉燕 |
| 地址: | 韓國京畿*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 方法 設備 以及 搜索 | ||
提供了一種詞嵌入方法和設備以及詞搜索方法,其中,所述詞嵌入方法包括:基于化學物質的特性信息來訓練詞嵌入模型;和從詞嵌入模型獲取表示化學物質的詞的嵌入向量,其中,詞嵌入模型被配置為預測輸入詞的上下文詞。
本申請要求于2019年10月14日在韓國知識產權局提交的第10-2019-0127032號韓國專利申請的權益,所述韓國專利申請的全部公開出于所有目的通過引用包含于此。
技術領域
下面的描述涉及詞嵌入和詞搜索方法和設備。
背景技術
大量的知識已發表成文本,例如論文和書籍。以自由文本描述的這樣的累積知識是用戶理解的形式,并且正在努力使用自然語言處理(NLP)技術從文本提取結構化知識。
發明內容
提供本發明內容以便以簡化的形式介紹以下在具體實施方式中進一步描述的構思的選擇。本發明內容不意在確定要求保護的主題的關鍵特征或必要特征,也不意在用于幫助確定要求保護的主題的范圍。
在一個總體方面,提供了一種詞嵌入方法,所述方法包括:基于化學物質的特性信息來訓練詞嵌入模型;和從詞嵌入模型獲取表示化學物質的詞的嵌入向量,其中,詞嵌入模型被配置為預測輸入詞的上下文詞。
訓練詞嵌入模型的步驟可包括:基于化學物質的結構信息、成分信息以及物理性質信息中的任何一個或任何組合來訓練詞嵌入模型。
訓練詞嵌入模型的步驟可包括:訓練詞嵌入模型,以響應于化學物質的結構信息被輸入到詞嵌入模型,輸出表示化學物質的詞的上下文詞。
基于指紋、簡化分子線性輸入規范(SMILES)、圖形或圖像中的一個的格式來確定化學物質的結構信息。
訓練詞嵌入模型的步驟可包括:訓練詞嵌入模型,以響應于化學物質的成分信息被輸入到詞嵌入模型,從詞嵌入模型輸出表示化學物質的詞的上下文詞。
化學物質的成分信息可從表示化學物質的詞獲取。
可將表示化學物質的詞分成字母或元素,并且將字母或元素順序地輸入到詞嵌入模型。
訓練詞嵌入模型的步驟可包括:訓練詞嵌入模型,以從詞嵌入模型輸出化學物質的物理性質信息。
物理性質信息可包括關于化學物質的質量、體積、顏色、熔點以及沸點中的任何一個或任何組合的信息。
所述詞嵌入方法可包括:將嵌入向量輸入到與詞嵌入模型對應的詞嵌入矩陣中的與表示化學物質的詞對應的部分。
所述詞嵌入方法可包括:確定具有將要生成的嵌入向量的詞是否表示化學材料。
在一個總體方面,提供了另一種詞搜索方法,所述詞搜索方法包括:接收化學物質的特性信息或表示所述化學物質的詞;和基于詞嵌入矩陣輸出表示具有與所述化學物質相似的特性的物質的詞,其中,詞嵌入矩陣從基于多個化學物質的特性信息訓練的詞嵌入模型獲取,并且詞嵌入模型被配置為預測輸入詞的上下文詞。
所述化學物質的特性信息可包括所述化學物質的結構信息、成分信息以及物理性質信息中的任何一個或任何組合。
一種詞嵌入設備包括:處理器,被配置為:基于化學物質的特性信息來訓練詞嵌入模型,和從詞嵌入模型獲取表示化學物質的詞的嵌入向量;和詞嵌入模型,被配置為預測輸入詞的上下文詞。
處理器可被配置為:基于化學物質的結構信息、成分信息以及物理性質信息中的任何一個或任何組合來訓練詞嵌入模型。
處理器可被配置為:訓練詞嵌入模型,以響應于化學物質的結構信息被輸入到詞嵌入模型,輸出表示化學物質的詞的上下文詞。
處理器可被配置為:訓練詞嵌入模型,以響應于化學物質的成分信息被輸入到詞嵌入模型,輸出表示化學物質的詞的上下文詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子株式會社,未經三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010310047.3/2.html,轉載請聲明來源鉆瓜專利網。





