[發明專利]用于識別系列文檔中的語義信息的方法和設備在審
| 申請號: | 201210392483.5 | 申請日: | 2012-10-16 |
| 公開(公告)號: | CN103729381A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 黃耀海;李榮軍;胡欽諳 | 申請(專利權)人: | 佳能株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 歐陽帆 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 系列 文檔 中的 語義 信息 方法 設備 | ||
1.一種用于識別系列文檔中的語義信息的方法,包括如下步驟:
a)識別系列文檔中的每個文檔中的實體項;
b)將所識別的實體項與其在系列文檔中的其它文檔中的對應的實體項映射;
c)計算所映射的實體項之間的相似度;
d)從序列關系結構中提取描述所映射的實體項中的至少一個實體項的穩定程度的語義信息;
其中,所述序列關系結構由N個所映射的實體項以及所映射的實體項之間的N-1個關系構成;以及
其中,所述關系由所映射的實體項之間的相似度度量,并且在每兩個所映射的實體項之間存在不多于一個的關系。
2.根據權利要求1所述的方法,其中描述穩定程度的語義信息包括以下中的至少一個:序列有關的語義信息和時序有關的語義信息。
3.根據權利要求2所述的方法,其中序列有關的語義信息包括以下中的至少一個:更新實體項、消失或減少實體項、可選或特殊實體項、穩定實體項、始祖實體項以及集成實體項。
4.根據權利要求2所述的方法,其中時序有關的語義信息包括以下中的至少一個:成熟時刻實體項、發展時刻實體項、衰退時刻實體項、成熟時段實體項、發展時段實體項和衰退時段實體項。
5.根據權利要求1到4中的任何一個所述的方法,其中序列關系結構被表征為鏈形拓撲圖,并且步驟d)還包括:
d11)通過將每個文檔中的實體項與其在最接近的后續文檔中的映射的實體項連接來創建鏈形拓撲圖;
其中,所述鏈形拓撲圖包括多個頂點和多條邊,每條邊連接所述多個頂點中的兩個頂點,其中所述鏈形拓撲圖的所述多個頂點分別表示所映射的實體項,并且所述鏈形拓撲圖的每條邊表示由所連接的頂點表示的所映射的實體項之間的相似度,并且指出所映射的實體項之間的關系。
6.根據權利要求5所述的方法,其中步驟d)還包括:
d12)從鏈形拓撲圖中提取序列特征;以及
d13)從所提取的序列特征中獲得序列有關的語義信息。
7.根據權利要求6所述的方法,其中,對于每個文檔中的實體項,序列特征包括:該文檔中的實體項與其在最接近的在先文檔中的映射的實體項之間的權重值WVNP,以及該文檔中的實體項與其在最接近的后續文檔中的映射的實體項之間的權重值WVNS。
8.根據權利要求7所述的方法,其中,對于每個文檔中的實體項,所獲得的序列有關的語義信息包括以下中的至少一個:更新實體項、消失或減少實體項、可選或特殊實體項和穩定實體項;
其中,
在權重值WVNP低于第一閾值的情況下,獲得更新實體項;
在權重值WVNS低于第二閾值的情況下,獲得消失或減少實體項;
在權重值WVNP和權重值WVNS分別低于第一閾值和第二閾值的情況下,獲得可選或特殊實體項;以及
在權重值WVNP和權重值WVNS中的任一個高于第三閾值的情況下,獲得穩定實體項。
9.根據權利要求5到8中的任何一個所述的方法,其中步驟d)還包括:
d14)從鏈形拓撲圖中提取時間特征;
d15)從所提取的時間特征中獲得時序有關的語義信息。
10.根據權利要求9所述的方法,其中,對于每個文檔中的實體項,時間特征包括:文檔的數量相對于時間的函數。
11.根據權利要求10所述的方法,其中,對于每個文檔中的實體項,所獲得的在預定時間點處的時序有關的語義信息包括以下中的至少一個:發展時刻實體項、成熟時刻實體項和衰退時刻實體項;
其中,
在文檔的數量在預定時間點處顯著地增大的情況下,獲得發展時刻實體項;
在文檔的數量在預定時間點處穩定的情況下,獲得成熟時刻實體項;或者
在文檔的數量在預定時間點處顯著地減少的情況下,獲得衰退時刻實體項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佳能株式會社,未經佳能株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210392483.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種激光器用臥式水冷模塊
- 下一篇:一種自動接線裝置





