[發(fā)明專利]包含公式的文本語義解析方法及裝置有效
| 申請?zhí)枺?/td> | 201610237536.4 | 申請日: | 2016-04-14 |
| 公開(公告)號: | CN107301163B | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計)人: | 劉青文;張丹;鄧曉棟;胡國平;胡郁;劉慶峰 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 劉路堯;逢京喜 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 包含 公式 文本 語義 解析 方法 裝置 | ||
1.一種包含公式的文本語義解析方法,其特征在于,包括:
預(yù)先構(gòu)建用于描述數(shù)學(xué)實體之間關(guān)系的語義解析模型;
接收包含數(shù)學(xué)公式的待解析文本數(shù)據(jù);
構(gòu)建待解析文本數(shù)據(jù)的多個數(shù)學(xué)實體對;
提取各數(shù)學(xué)實體對的語義解析特征;
利用所述語義解析特征及所述語義解析模型對待解析文本數(shù)據(jù)進(jìn)行語義解析,得到解析結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)先構(gòu)建用于描述數(shù)學(xué)實體之間關(guān)系的語義解析模型包括:
收集設(shè)定數(shù)量的包含公式的文本數(shù)據(jù);
根據(jù)收集的文本數(shù)據(jù)構(gòu)建公式實體集合和概念實體集合;
構(gòu)建數(shù)學(xué)實體對并標(biāo)注每個數(shù)學(xué)實體對之間的關(guān)系;
基于所述數(shù)學(xué)實體對的上下文信息提取所述數(shù)學(xué)實體對的語義解析特征;
根據(jù)所述數(shù)學(xué)實體對的語義解析特征構(gòu)建所述語義解析模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述數(shù)學(xué)實體對包括:公式實體與公式實體之間的實體對、公式實體與概念實體之間的實體對;所述公式實體是指對包含公式的文本進(jìn)行識別時得到的公式和/或公式字符;所述概念實體是指文本數(shù)據(jù)中出現(xiàn)的與數(shù)學(xué)概念相關(guān)的描述;所述數(shù)學(xué)實體之間的關(guān)系是指文本數(shù)據(jù)中數(shù)學(xué)實體之間的關(guān)系。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)收集的文本數(shù)據(jù)構(gòu)建公式實體集合包括:
對收集的文本數(shù)據(jù)進(jìn)行公式識別,得到公式和/或公式字符;
將得到的公式和/或公式字符作為公式實體,得到公式實體集合。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)收集的文本數(shù)據(jù)構(gòu)建概念實體集合包括:
對收集的文本數(shù)據(jù)進(jìn)行分詞,得到各詞;
計算各詞在所述文本數(shù)據(jù)中出現(xiàn)的頻率;
如果所述頻率大于設(shè)定的頻率閾值,則將對應(yīng)的詞作為概念實體,得到概念實體集合。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述數(shù)學(xué)實體對的語義解析特征包括以下任意一種或多種:
所述數(shù)學(xué)實體對中兩個數(shù)學(xué)實體的語法樹的包含關(guān)系、兩個數(shù)學(xué)實體的編輯距離、兩個數(shù)學(xué)實體在文本數(shù)據(jù)中的位置關(guān)系、各數(shù)學(xué)實體的類型、各數(shù)學(xué)實體前后一個或多個詞的詞面信息。
7.根據(jù)權(quán)利要求1至6任一項所述的方法,其特征在于,所述構(gòu)建待解析文本數(shù)據(jù)的數(shù)學(xué)實體對包括:
對待解析文本數(shù)據(jù)進(jìn)行分詞,根據(jù)分詞結(jié)果確定所述待解析文本數(shù)據(jù)中的概念實體;
識別所述待解析文本數(shù)據(jù)中包含的公式和/或公式字符,得到待解析文本數(shù)據(jù)中的公式實體;
將所述待解析文本數(shù)據(jù)中的概念實體和公式實體組成數(shù)學(xué)實體對。
8.一種包含公式的文本語義解析裝置,其特征在于,包括:
模型構(gòu)建模塊,用于預(yù)先構(gòu)建用于描述數(shù)學(xué)實體之間關(guān)系的語義解析模型;
接收模塊,用于接收包含數(shù)學(xué)公式的待解析文本數(shù)據(jù);
數(shù)學(xué)實體對構(gòu)建模塊,用于構(gòu)建待解析文本數(shù)據(jù)的多個數(shù)學(xué)實體對;
特征提取模塊,用于提取各數(shù)學(xué)實體對的語義解析特征;
解析模塊,用于利用所述語義解析特征及所述語義解析模型對待解析文本數(shù)據(jù)進(jìn)行語義解析,得到解析結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述模型構(gòu)建模塊包括:
數(shù)據(jù)收集單元,用于收集設(shè)定數(shù)量的包含公式的文本數(shù)據(jù);
公式實體集合構(gòu)建單元,用于根據(jù)收集的文本數(shù)據(jù)構(gòu)建公式實體集合;
概念實體集合構(gòu)建單元,用于根據(jù)收集的文本數(shù)據(jù)構(gòu)建概念實體集合;
數(shù)學(xué)實體對構(gòu)建單元,用于構(gòu)建數(shù)學(xué)實體對并標(biāo)注每個數(shù)學(xué)實體對之間的關(guān)系;
特征提取單元,用于基于所述數(shù)學(xué)實體對的上下文信息提取所述數(shù)學(xué)實體對的語義解析特征;
模型構(gòu)建單元,用于根據(jù)所述數(shù)學(xué)實體對的語義解析特征構(gòu)建所述語義解析模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610237536.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





