[發(fā)明專利]用于從數(shù)學語句提取語義距離并且按照語義距離對數(shù)學語句分類的方法和用于該方法的裝置有效
| 申請?zhí)枺?/td> | 201180059052.0 | 申請日: | 2011-12-07 |
| 公開(公告)號: | CN103250149B | 公開(公告)日: | 2015-11-25 |
| 發(fā)明(設計)人: | 樸根兌;樸鏞吉;崔炯仁;魏南淑;李斗錫;孫正教;金行文;李東學 | 申請(專利權(quán))人: | SK電信有限公司 |
| 主分類號: | G06F17/20 | 分類號: | G06F17/20;G06F17/30 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 呂俊剛;劉久亮 |
| 地址: | 韓國*** | 國省代碼: | 韓國;KR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數(shù)學 語句 提取 語義 距離 并且 按照 分類 方法 裝置 | ||
技術(shù)領域
本公開在一些方面涉及用于從數(shù)學語句提取語義距離并且按照語義距離對數(shù)學語句分類的方法、用于該方法的裝置和計算機可讀記錄介質(zhì)。更具體地,本公開涉及一種用于當搜索所輸入的數(shù)學語句以給出存儲的數(shù)學內(nèi)容之間的相似性時、從由自然語言單詞和標準化數(shù)學公式中的至少一種組成的數(shù)學語句提取語義距離并且按照語義距離對數(shù)學語句分類的方法、用于該方法的裝置和計算機可讀記錄介質(zhì)。
背景技術(shù)
這一部分中的說明僅僅提供與本公開有關的背景信息而可能不構(gòu)成現(xiàn)有技術(shù)。
人類的單詞很豐富并且復雜,并且包括大量的具有復雜的語法構(gòu)造和語境意義的詞匯,但是機器或者軟件應用通常需要根據(jù)特定格式或者規(guī)則來輸入數(shù)據(jù)。在此,輸入的自然語言單詞可以用于幾乎全部與人類交互的軟件應用。通常,自然語言處理方法包括將自然單詞劃分為標記(Token)并且將所劃分的標記映射到由軟件應用提供的一條或者多條運算信息或者動作,其中每一個軟件應用被設定為具有一系列獨特動作。也就是說,自然語言處理方法適用于基于軟件開發(fā)者對于用于解析輸入的代碼的編寫,將所輸入的自然單詞映射到適合于每一個應用的適當動作。
然而,自然語言處理方法可能既不能識別數(shù)學公式,也不能通過算出用于搜索數(shù)學語句的查詢與所存儲的數(shù)學語句之間的相似程度來提供搜索結(jié)果。
發(fā)明內(nèi)容
技術(shù)問題
本公開的一個方面適用于自動提取由自然單詞和標準化數(shù)學公式中的至少一種組成的數(shù)學語句中包含的語義信息。
技術(shù)方案
本公開的實施方式提供一種用于從數(shù)學語句提取語義距離并且按照語義距離對數(shù)學語句分類的裝置,所述裝置包括:用戶查詢輸入單元,所述用戶查詢輸入單元用于從用戶接收查詢;查詢解析單元,所述查詢解析單元用于提取所輸入的用戶查詢中包括的至少一個關鍵詞;索引信息單元,所述索引信息單元用于對包括語義信息的自然語言標記和數(shù)學公式標記中的一個或多個編索引;語義距離提取單元,所述語義距離提取單元用于通過測量所提取的關鍵詞和被編索引的語義信息之間的語義距離來獲取相似性。
一種用于從數(shù)學語句提取語義距離并且按照語義距離對數(shù)學語句分類的裝置還可包括:信息輸入單元,所述信息輸入單元用于接收包括自然單詞和數(shù)學公式中的至少一種的復合語句;語義解析單元,所述語義解析單元用于從所述復合語句分別劃分自然單詞和數(shù)學公式,并且用于解析構(gòu)成所劃分的自然單詞和數(shù)學公式的每一條構(gòu)造信息來生成語義信息,從而生成自然語言標記和數(shù)學公式標記。
所述語義解析單元可將所述復合語句轉(zhuǎn)換為簡單語句的邏輯組合以生成語義信息。
所述語義解析單元可通過對自然單詞標記化來生成自然語言標記,通過基于自然語言標記過濾停用詞來生成過濾了停用詞的數(shù)據(jù),通過對過濾了停用詞的數(shù)據(jù)執(zhí)行重復去除過濾來生成過濾了重復的數(shù)據(jù),并且將過濾了重復的數(shù)據(jù)與具有所獲取的預定義含義的運算信息進行匹配以提取匹配作為語義信息。
所述語義解析單元可將數(shù)學公式轉(zhuǎn)換為樹形,對樹形的數(shù)學公式執(zhí)行遍歷處理,對經(jīng)遍歷處理的數(shù)學公式執(zhí)行標記化為數(shù)學公式標記,以提取數(shù)學公式標記作為語義信息。
語義信息可包括復合語句的運算信息,所述運算信息是通過參照一規(guī)則并且通過將自然語言標記和數(shù)學公式標記與所述規(guī)則進行比較而提取的,所述規(guī)則具有自然單詞和數(shù)學公式中的至少一種的組合,相應的運算信息組合到所述組合。
所述運算信息可包括自然語言標記的結(jié)構(gòu)含義、自然語言標記的方向性和被自然語言標記影響的點。
所述方向性可表示所述運算信息是與自然語言標記的一個或多個前面的數(shù)學公式相關聯(lián)、與自然語言標記的一個或多個隨后的數(shù)學公式相關聯(lián)、還是獨立。
語義信息可包括通過將自然語言標記的對象數(shù)學公式與數(shù)學公式標記中的一個相匹配而生成的數(shù)學對象。
所述查詢解析單元可從用戶查詢分別劃分自然單詞和數(shù)學公式,解析構(gòu)成所劃分的自然單詞和數(shù)學公式的每一條構(gòu)造信息來生成語義信息,并且提取包括自然語言標記和數(shù)學公式標記的關鍵詞。
所述語義距離可被生成為與對于所提取的關鍵詞的語義元素和被編索引的語義信息的語義元素共同的共同語義元素的數(shù)量成正比的值。
語義元素可具有針對每一個語義元素設定的權(quán)重。
所述語義距離可與等同地存在于所提取的關鍵詞和被編索引的語義信息中的語義元素的權(quán)重的和成反比,可與所提取的關鍵詞和被編索引的語義信息中包括的總計語義元素的權(quán)重的和成正比。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于SK電信有限公司,未經(jīng)SK電信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201180059052.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





