[發明專利]一種科技項目相似度計算方法有效

申請號：	201310508199.4	申請日：	2013-10-24
公開（公告）號：	CN103631858B	公開（公告）日：	2017-07-21
發明（設計）人：	徐小良;林建海;楊文顯;陳秋	申請（專利權）人：	杭州電子科技大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	杭州君度專利代理事務所(特殊普通合伙)33240	代理人：	杜軍
地址：	310018 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種科技項目相似計算方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于文本查重技術領域，尤其涉及一種科技項目相似度計算方法，用于科技項目查重的應用。

背景技術

隨著我國科技計劃項目申報數量和經費的逐年遞增，項目重復申報現象日益突出。雖然目前我國科技項目查重系統也取得了一些研究成果，但是這些查重系統研究存在缺乏語義理解、未考慮項目專業術語等問題。因此對科技項目進行有效的相似性檢測研究是非常必要的，在一定程度上有效的防止了科技項目的重復立項問題。

文本相似度計算方法主要有兩類。一類是根據某種世界知識來計算，主要是基于按照概念間結構層次關系組織的語義詞典的方法,根據在這類語言學資源中概念之間的上下位關系和同位關系來計算詞語的相似度。它的優點是不需要大規模語料庫的支持，也不需要長時間的訓練，具有準確率高；缺點是單純地使用語義詞典，孤立考慮兩個詞語的相似度，并沒有考慮到句子內部的結構和詞語之間的相互作用關系。另一類利用大規模的語料庫進行統計,這種基于統計的方法主要將上下文信息的概率分布作為詞匯語義相似度的參照依據，是一種經驗主義方法,它把詞語相似度的研究建立在可觀察的語言事實上,而不僅僅依賴于語言學家的直覺。它是建立在兩個詞語語義相似當且僅當它們處于相似的上下文環境中這一假設的基礎上。它的缺點是基于統計的計算方法需要有大規模的語料庫支持，大規模的語料庫的構建本身就是一件比較困難，需要消耗大量的人力和時間的工作，并且還存在著數據稀疏的問題。其次，像TF-IDF方法等只考慮了詞在上下文中的統計特性，丟棄了句子的結構信息和語義信息，因此具有一定的局限性。

發明內容

本發明的目的是針對現有技術的不足，提出一種科技項目相似度計算方法，能夠極大地提高了科技項目申請書相似度計算的準確率及效率。

本發明解決問題所采取的技術方案包括如下步驟：

步驟1.針對待查重的項目申請書的規范簡潔的特點，本發明提出一種規則模型進行識別未登錄詞；

所述的未登錄詞的識別是基于碎片的，將分詞后產生的碎片與碎片兩端的多字詞定義為未登錄詞候選片段，表示為W_sC₁C₂…C_nW_e，其中W_s是與碎片左端相鄰的多字詞，C₁C₂…C_n為產生的碎片，W_e是與碎片右端相鄰的多字詞；規則模型如下：

規則一：確定字詞的第一詞性；所述的第一詞性指詞性標注的第一個字詞；

規則二：設置未登錄詞排除字集；碎片中會存在詞性為介詞、助詞、代詞、副詞的單字，這些詞的構詞能力很弱，不與其它字串構成未登錄詞的概率大于90%；

規則三：設置切分規則；未登錄詞候選片段對于未登錄詞片段W_sC₁C₂…C_nW_e中的C_i根據規則二，確定為排除字，那么未登錄詞片段切分W_sC₁…C_i-1與C_i-1…C_nW_e兩個未登錄詞片段，其中，1<i<n，n為自然數；