[發(fā)明專利]一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200910085070.0 | 申請(qǐng)日: | 2009-05-31 |
| 公開(kāi)(公告)號(hào): | CN101576910A | 公開(kāi)(公告)日: | 2009-11-11 |
| 發(fā)明(設(shè)計(jì))人: | 于文淵 | 申請(qǐng)(專利權(quán))人: | 北京學(xué)之途網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 龍 洪;霍育棟 |
| 地址: | 102218北京市朝陽(yáng)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動(dòng)識(shí)別 產(chǎn)品 命名 實(shí)體 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)言處理領(lǐng)域,尤其涉及一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置。
背景技術(shù)
當(dāng)今互聯(lián)網(wǎng)上,擁有大量的信息,除了少部分圖片和視頻,絕大多數(shù)的信息是由文本來(lái)組織的,包括大量的新聞、介紹性文章等內(nèi)容。這些文本信息中,有相當(dāng)數(shù)量與產(chǎn)品有關(guān),例如現(xiàn)在互聯(lián)網(wǎng)硬件網(wǎng)站的介紹、評(píng)測(cè)性文章中都大量的出現(xiàn)產(chǎn)品信息。現(xiàn)有的技術(shù)不能有效自動(dòng)的從這些信息中識(shí)別出文章中出現(xiàn)的產(chǎn)品信息,更缺乏相關(guān)技術(shù),對(duì)文章的產(chǎn)品信息進(jìn)行提取。
相關(guān)工作包括產(chǎn)品命名實(shí)體識(shí)別的研究,產(chǎn)品命名實(shí)體是指在文本(文章中)出現(xiàn)的用來(lái)表征產(chǎn)品信息的短語(yǔ)片段。產(chǎn)品命名實(shí)體識(shí)別屬于計(jì)算語(yǔ)言學(xué)的研究領(lǐng)域。目前有關(guān)文獻(xiàn)發(fā)表的方法主要為基于統(tǒng)計(jì)/概率模型的命名實(shí)體識(shí)別,采用隱馬爾可夫模型HMM、條件隨機(jī)場(chǎng)CRF等方法進(jìn)行命名實(shí)體識(shí)別。相關(guān)研究有中國(guó)科學(xué)院計(jì)算技術(shù)研究所張華平等的相關(guān)工作、富士通公司和中國(guó)科學(xué)院自動(dòng)化所的劉非凡等進(jìn)行的相關(guān)工作。這些識(shí)別方案是建立在一定的訓(xùn)練樣本的統(tǒng)計(jì)/概率模型的基礎(chǔ)之上,在學(xué)習(xí)/識(shí)別過(guò)程中不利用知識(shí)信息。同時(shí)其未對(duì)文本信息中潛在的命名實(shí)體進(jìn)行標(biāo)注,而不進(jìn)行與知識(shí)庫(kù)的對(duì)應(yīng);導(dǎo)致了知道這個(gè)是一個(gè)實(shí)體,但是不知道這個(gè)實(shí)體具體是什么的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置,能夠識(shí)別出文本中的產(chǎn)品命名實(shí)體,并將該產(chǎn)品命名實(shí)體與知識(shí)庫(kù)中的產(chǎn)品信息相對(duì)應(yīng)。
為了解決上述問(wèn)題,本發(fā)明提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法,包括:
根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫(kù);
識(shí)別文本中的產(chǎn)品命名實(shí)體;
將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品。
進(jìn)一步地,所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫(kù)的步驟包括:
對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫(kù)的網(wǎng)頁(yè)進(jìn)行抓取,并從所抓取的網(wǎng)頁(yè)中分別提取出該網(wǎng)頁(yè)內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);
計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e’的概率P(e’)的總和,所述e’為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);
以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫(kù)。
進(jìn)一步地,所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括:
根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;
通過(guò)對(duì)語(yǔ)料庫(kù)的標(biāo)注和最大似然法獲取概率參數(shù),所述語(yǔ)料庫(kù)是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);
將文本分割為句子;利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。
進(jìn)一步地,將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品的步驟包括:
計(jì)算識(shí)別出來(lái)的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫(kù)中的各產(chǎn)品的匹配度;當(dāng)計(jì)算該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度時(shí),在所述產(chǎn)品知識(shí)庫(kù)中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重,然后相加得到對(duì)于該產(chǎn)品e的匹配度;
對(duì)所述產(chǎn)品知識(shí)庫(kù)中的所有產(chǎn)品的匹配度進(jìn)行排序,確定匹配度最高的產(chǎn)品為所述識(shí)別出來(lái)的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品。
進(jìn)一步地,所述的方法還包括:
當(dāng)計(jì)算對(duì)某個(gè)產(chǎn)品的匹配度時(shí),如果所述識(shí)別出來(lái)的產(chǎn)品命名實(shí)體前第d個(gè)詞為該產(chǎn)品的廠商信息,則將對(duì)該產(chǎn)品的匹配度增加1/d+4。
本發(fā)明還提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置,包括:
構(gòu)建單元,用于根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫(kù);
識(shí)別單元,用于識(shí)別文本中的產(chǎn)品命名實(shí)體;
對(duì)應(yīng)單元,用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫(kù)中的產(chǎn)品。
進(jìn)一步地,所述構(gòu)建單元包括:
提取模塊,用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫(kù)的網(wǎng)頁(yè)進(jìn)行抓取,并從所抓取的網(wǎng)頁(yè)中分別提取出該網(wǎng)頁(yè)內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京學(xué)之途網(wǎng)絡(luò)科技有限公司,未經(jīng)北京學(xué)之途網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910085070.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:防爆烘箱
- 下一篇:用電磁渦流加熱導(dǎo)熱液體的發(fā)熱器
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 在帶有圖像輸入單元的便攜式終端中識(shí)別字符的方法
- 基于無(wú)線射頻RFID的檔案管理系統(tǒng)
- 一種防盜監(jiān)控系統(tǒng)的自動(dòng)識(shí)別控制設(shè)備
- 一種基于視頻識(shí)別的隧道運(yùn)行安全事件檢測(cè)系統(tǒng)
- 存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別系統(tǒng)及存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別配置方法
- 快遞物流件自動(dòng)識(shí)別分揀系統(tǒng)
- 一種基于無(wú)線技術(shù)的低功耗自動(dòng)識(shí)別終端設(shè)計(jì)方法
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置及其使用方法
- 一種電商用條碼自動(dòng)識(shí)別裝置
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識(shí)別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





