[發(fā)明專利]一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法有效
| 申請?zhí)枺?/td> | 201310431571.6 | 申請日: | 2013-09-22 |
| 公開(公告)號: | CN104462053B | 公開(公告)日: | 2018-10-12 |
| 發(fā)明(設計)人: | 仲兆滿;姜劍;陳宗華;陳永江;喬磊 | 申請(專利權)人: | 江蘇金鴿網(wǎng)絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 連云港潤知專利代理事務所 32255 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 基于 語義 特征 人稱 代詞 指代 消解 方法 | ||
本發(fā)明公開了一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,具體步驟如下:(1)人物識別。對文本進行預處理,所述預處理包括:段落、語句識別、命名實體識別、詞性標注;對處理后的文本,確定人物及代詞在文本內(nèi)中的位置。(2)語義特征提取。對識別出的人物及代詞根據(jù)其各自所在語句及段落信息,提取語義關聯(lián)詞,構建人名及代詞語義特征。(3)候選人物選擇。針對人物及代詞的性別、單復數(shù)、距離進行過濾,為代詞選擇若干符合條件的候選人物。(3)指代關系計算。計算代詞與候選人物的語義特征相關度,結合語義特征相關度及兩者間的距離,確定代詞的指代人物。本發(fā)明方法實現(xiàn)了文本內(nèi)的人稱代詞指代消解。
技術領域
本發(fā)明屬于信息系統(tǒng)建模和知識工程領域,具體地說是文本內(nèi)的基于語義特征的人稱代詞指代消解方法。
背景技術
隨著社會信息化的迅猛發(fā)展,網(wǎng)絡已經(jīng)成為人們獲取信息的重要來源。而網(wǎng)絡信息具有海量,復雜,非結構化等特點,為網(wǎng)絡信息的獲取以及基于網(wǎng)絡信息搜集的分析與研究工作都帶來了很大困難。本體(Ontology)的概念起源于哲學領域,指的是對客觀存在系統(tǒng)的解釋和說明,近幾十年來,在人工智能、計算機科學和知識工程等諸多領域得到了迅速發(fā)展。本體可以實現(xiàn)某種程度的知識共享和重用,使得計算機對信息和對語言的理解上升到語義層次,并在一定程度上解決語義異構問題,在信息互操作、知識理解和信息集成等領域具有很大的應用前景。
文本內(nèi)的基于語義特征的人稱代詞指代消解方法,一方面應用于輿情管理領域,對搜索采集進行擴展;另一方面,可以根據(jù)本體對采集信息的進行分類。
現(xiàn)有構建本體方法主要分為兩類:手工構建和半自動構建。手工構建是以本體描述捕獲方法為代表,將本體構建的過程分為目標和團隊建立、原始素材采集、素材分析、本體初步構建、本體精化和驗證等5個步驟,每一步都由人手工完成。半自動構建又稱本體學習,由計算機程序自動地從文本中抽取出表示概念、概念間關系等的術語,形成初步的本體,再經(jīng)過人手工精化和驗證。然而,目前計算機程序自動構建的初步本體在質量上通常很差,并不能有效降低對人工的依賴,因此手工構建仍是主流方法。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術存在的問題和不足,本發(fā)明要解決的技術問題是提供一種可以有效的指導搜索采集信息的文本內(nèi)的基于語義特征的人稱代詞指代消解方法。
本發(fā)明所要解決的技術問題是通過下述技術方案來實現(xiàn)的,本發(fā)明是一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,其特點是:首先識別文本中的人物;其次提取人物語義特征;再次選擇代詞的候選人物;最終計算代詞與候選人物的指代關系確定代詞的指代人物,其具體步驟如下:
A:人物識別:對文本進行預處理,所述預處理包括:分詞、命名實體識別、詞性標注;對處理后的文本,確定人物(包括人名及代詞)在文本內(nèi)中的位置;其操作步驟如下:
A1:對文本進行分詞處理,其中包括詞性標注;
A2:順序提取詞性標注為nr(代表人名)及r(代表代詞)的人物詞語,并確定人物詞語在文本中的位置;
B:語義特征提取:對識別出的人物根據(jù)其各自所在語句及段落信息,提取語義關聯(lián)詞,構建人名及代詞語義特征;其操作步驟如下:
B1:確定當前人物在文本中的有效關聯(lián)范圍;
B2:在人物有效關聯(lián)范圍內(nèi)的字符串中,根據(jù)分詞結果,去停用詞,提取人物關聯(lián)詞,構建人物的語義特征;
C:候選人物選擇:針對人名及代詞的性別、單復數(shù)、距離進行過濾,為代詞選擇若干符合條件的候選人物;其操作步驟如下:
C1:判斷代詞的性別、單復數(shù)屬性;
C2:選擇代詞的先遣人物,判斷先遣人物的性別、單復數(shù)屬性及先遣人物與代詞的句子距離屬性;
C3:根據(jù)候選人物選擇規(guī)則,過濾不滿足條件的先遣人物;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金鴿網(wǎng)絡科技有限公司,未經(jīng)江蘇金鴿網(wǎng)絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310431571.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





