[發(fā)明專利]一種面向文本的相對位置信息提取方法有效
| 申請?zhí)枺?/td> | 202110479288.5 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113282767B | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計)人: | 李霖;羅振威;朱海紅;沈航;金榜;李昭熹 | 申請(專利權(quán))人: | 武漢大學 |
| 主分類號: | G06F16/387 | 分類號: | G06F16/387;G06F40/242;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 文本 相對 位置 信息 提取 方法 | ||
位置信息不僅包括地理命名實體,實體間的相對位置信息也是重要的一部分。但是相對位置的表達形式多樣,與日常語言十分貼近,很難通過固定的語法規(guī)則進行識別,需要我們探索新的方法來進行提取。本發(fā)明提出了一種面向文本的相對位置信息提取方法。本方法利用BiLSTM(雙向LSTM)+CRF(條件隨機場)模型和空間語義特征模板對文本中的數(shù)據(jù)進行訓練,提取文本中的地名實體信息與相對位置信息,并結(jié)合中文文本中的語義結(jié)構(gòu)和獲取的外部特征庫,構(gòu)建位置指示性信息詞典,制定相對位置信息的識別規(guī)則,進一步優(yōu)化其相對位置信息提取的精度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種面向文本的位置信息提取方法,特別涉及面向文本的相對位置信息提取方法。
背景技術(shù)
位置信息不僅包括地理命名實體,實體間的相對位置信息也是重要的一部分。但是不同于以坐標等方式表達的空間位置,文本中的空間關(guān)系往往比較模糊。大部分的描述屬于定性的表達,如常見的“周圍”、“緊鄰”等詞語,從中無法獲得精確的位置描述。而地理命名實體往往是固定的,代表著確定的位置。因此,將地理命名實體和實體間的相對位置信息結(jié)合,是對文本中位置信息提取的理想方法。但是相對位置的表達形式多樣,與日常語言十分貼近,很難通過固定的語法規(guī)則進行識別,需要我們探索新的方法來進行提取。現(xiàn)有的相關(guān)發(fā)明往往只關(guān)注地理命名實體的提取方法,忽略了對實體間的相對位置關(guān)系的識別和轉(zhuǎn)化,也缺少相關(guān)的全位置信息語料庫。同時,現(xiàn)有的識別方法仍然有很多不足,如對復雜地名識別召回率不高、識別范圍不準確等。因此,針對文本中的相對位置信息自動提取中存在的問題進行發(fā)明,在理論上和實踐中都有很重要的意義。
發(fā)明內(nèi)容
為了實現(xiàn)針對中文文本信息中的相對位置信息提取,本發(fā)明以此為出發(fā)點,提出了一種基于BiLSTM+CRF+空間語義特征模板的相對位置信息提取方法。該方法中BiLSTM可以很好地提取上下文特征,CRF模型則對標簽分布進行約束,同時建立空間語義特征模板,在此基礎(chǔ)上結(jié)合中文文本中的語義結(jié)構(gòu)和獲取的外部特征庫,制定相對位置信息的識別規(guī)則,優(yōu)化位置信息的提取精度。
方法步驟描述如下:
一種面向文本的相對位置信息提取方法,其特征在于:包括以下步驟,
步驟1、對獲取到的中文文本進行預(yù)處理,并進行分詞與標注;
步驟2、根據(jù)分詞與標注后的文本內(nèi)容,利用BiLSTM(雙向LSTM)+CRF(條件隨機場)模型+空間語義特征模板進行地名實體與相對位置信息提取;
步驟3、構(gòu)建位置指示性信息詞典,制定地名命名實體和相對位置信息的識別規(guī)則,優(yōu)化相對位置信息提取精度;
步驟4、利用地理編碼技術(shù)將位置信息轉(zhuǎn)化為結(jié)構(gòu)化地理數(shù)據(jù)展示在地圖上。
在上述的面向文本的相對位置信息提取方法,在步驟1中,文本內(nèi)容僅限于中文文本,對于文本中夾雜漢語拼音、英文、繁體中文或其他語言,將進行刪除,將預(yù)處理后的文本數(shù)據(jù),利用NLPIR分詞工具對文本內(nèi)容進行分詞與詞性標注的操作。
在上述的面向文本的相對位置信息提取方法,在步驟2中,包括:
步驟2.1、首先利用BiLSTM+CRF模型對文本語料進行大規(guī)模訓練;訓練使用條件隨機場CRF++工具,通過制定合適的特征模板生成特征函數(shù),利用條件隨機場模型的原理對文本中的數(shù)據(jù)進行訓練;其中,特征函數(shù)為二值函數(shù),即函數(shù)的輸出值只有0和1兩種,公式表示為:
CRF++通過制定特征模板,選擇訓練過程中使用的特征和關(guān)系,生成對應(yīng)的特征函數(shù);每個特征模板會把可能的標記全部輸出一次,通過訓練確定標記的權(quán)重,當標記合理時特征函數(shù)輸出為1,對應(yīng)權(quán)重較高,標記不合理時特征函數(shù)輸出0,對應(yīng)權(quán)較低;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學,未經(jīng)武漢大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110479288.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





