汪明達,劉世鈺,聶大成,楊 慧,張 翔,邱鴻杰
(中國電子科技集團公司第三十研究所,四川 成都 610041)
0 引言
隨著全球數字化、信息化進程的深度推進,互聯網逐漸成為人類最重要的基礎設施之一,承載了涉及人類生活工作方方面面的海量信息。與此同時,互聯網的普及極大簡化了從門戶網站、社交媒體、博客等公開信息源獲取信息數據的過程,這些開源信息數據可為人們提供有價值的決策支撐信息,幫助人們更好地認知、理解甚至預測特定實體或概念對象的屬性和行為,進而掌握事件的規模、熱度、發展趨勢等。為此,互聯網開源信息處理逐漸成為世界各國爭相研究的熱點。
互聯網開源信息處理(以下簡稱“開源信息處理”)是指從互聯網上的公開信息源獲取數據并分析處理,進而獲得有價值的開源信息的過程。開源信息處理中涉及的信息范圍十分廣泛,涵蓋了政治、軍事、商業、社會等眾多領域。在政治領域,開源信息處理可以用于分析其他國家的政策和決策,幫助決策者預測目標國家的行為趨勢。在商業領域,開源信息處理可以用于分析競爭對手的戰略和市場趨勢,幫助企業制定更好的市場營銷策略。在社會領域,開源信息處理可用于分析犯罪活動和社會趨勢,幫助執法部門和政府機構制定更好的政策和措施。
本文將對國外開源信息處理的有關研究進行綜述,包括開源信息處理的定義、技術手段、應用系統等,總結現有研究存在的問題,提出未來可能的研究方向,旨在為有關領域的從業人員提供一個可參考的系統性知識框架,助力開源信息處理技術發展。
1 技術流程
開源信息處理的主要技術流程包括4 個部分,分別是數據采集、數據預處理、信息分析和決策支撐,如圖1 所示。

圖1 開源信息處理主要技術流程
一是數據采集,是指從互聯網公開數據源采集信息數據,為開源信息處理分析提供基礎數據支撐。采集的信息需要經過初步篩選和過濾,以保證基本的數據準確性和有效性,避免采集資源浪費。數據預處理是指對采集到的開源數據進行分析前的預先處理。二是數據預處理,其目的是在于提高數據的質量和可用性,以便后續分析能夠更加有效地利用,常見的預處理包括數據清洗、格式轉換、數據重構和存儲管理等,能夠使數據更加規范化,降低數據冗余和錯誤。三是信息分析,指利用分析算法對預處理數據進行深度的統計、分析和判斷,從中挖掘出有價值的信息和規律,生成有價值的決策支撐信息,為用戶決策管理提供信息支撐,是開源信息處理整體流程中的核心環節。四是決策支撐,指將分析的結果通過合理的方式傳遞給用戶,方式主要包括信息可視化、報告生成和信息共享,以便用戶更好地理解和使用決策支撐信息。
2 數據采集
2.1 人力整編
人力整編也稱眾包數據收集,是指通過數據工作者手工收集、完善和優化從公開數據源獲得的數據的過程。人力整編的優勢主要在于通過引入專家知識,一定程度上提高數據質量,對于輕量級的數據采集工作能夠保證數據采集和管理的效率。然而,人力整編面臨數據隱私安全、人為偏見、眾包質量參差不齊等問題。
Chai 等人[1]在其綜述研究中提到,眾包數據庫系統能夠有效解決現有公共眾包平臺(如Amazon Mechanical Turk、CrowdFlower 等)交互設計非常不便的問題。該綜述對眾包平臺有關研究進行了梳理,概述了眾包的概念,總結了設計眾包數據庫的基本技術,其中包含任務設計、任務分配、解決方案推理及延遲減少等,并回顧了眾包操作符設計策略,包括選擇、連接、排序、前k項、最大/最小值、計數、收集和填充等。
2.2 網絡爬蟲
網絡爬蟲是一種用于自動化采集公開數據的程序,數據類型覆蓋包括網頁文本、圖片、音頻、視頻等在內的多媒體數據。經過多年發展,網絡爬蟲逐漸成為大數據分析、搜索引擎、推薦系統等技術的數據采集基礎。
Khder 等人[2]在其2021 年發表的研究綜述中提到,網絡爬蟲的近期研究主要關注于爬蟲技術的智能化及爬取效率的提高。相較于人工整編,使用網絡爬蟲不僅可以獲得更全面、準確和一致的數據,還可從深暗網中大量獲取灰黑產數據以支撐執法打擊決策,應用場景更為廣泛。同時,該文強調了爬蟲應用導致的倫理和法律問題,尤其是個人隱私泄露、版權侵犯、不正當競爭、網絡攻擊等。
Neelakandan 等人[3]提出了一種用于定向網絡爬蟲的自動參數調整深度學習詞嵌入模型。該模型涉及多個步驟,包括預處理、基于負采樣的增量式跳躍語法模型詞嵌入、雙向長短期記憶分類以及基于鳥群優化的超參數調整。該研究的實驗結果表明,所提出的模型在網頁收集方面獲得了更高的采集成功率,達到了85%。
3 數據預處理
在開源信息處理中,數據預處理包括很多方面的內容,例如數據的目標抽取、清洗、格式轉換、取值標準化、多源數據集成、信息精煉等。
Johnsen 等人[4]提出了一種基于主題模型的隱式狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本預處理方法。該研究基于對大量有關研究文獻的總結,設計了一組預處理規則,并在真實的網絡論壇中進行了演示應用。該研究的實驗結果表明,如果要保證主題建模的結果可以實際運用于開源信息處理,其建模過程需要遵循非常嚴格的流程,且通過調整LDA 的超參數和主題數可以產生更可靠的結果。該研究通過對主題模型進行迭代改善,保證了所提取主題內容的連貫性和針對性。
Chandrasekar 等人[5]為提高C4.5 決策樹算法信息挖掘的準確性,提出通過在數據預處理中利用監督過濾離散化操作來構建決策樹,并將結果與未經離散化的C4.5 決策樹進行了比較。實驗結果表明,經離散化預處理后的C4.5 決策樹能夠取得更高的準確度。Garcia 等人[6]對大數據分析場景下的數據預處理方法進行了綜述,描述了大數據中數據預處理方法的定義、特征和分類方式,探討了大數據和數據預處理在各種方法和大數據技術族群中的作用。該綜述總結了現有研究面臨的挑戰,重點描述了不同大數據框架(如Hadoop、Spark 和Flink)的發展狀況,以及一些數據預處理方法和新大數據挖掘模式的應用。
4 信息分析
4.1 基于規則判斷的開源信息處理
基于規則判斷的開源信息處理是指從專家的先驗知識出發,手工設計開源信息處理分析所需的判定規則,如閾值判定規則、類型判定規則、規則匹配方式等,并利用這些規則對開源信息數據進行分析處理,進而達到信息分析目的的方法。
規則判斷在開源信息處理中的應用優勢主要有兩點。一是由于規則判斷能夠根據領域專家的經驗進行快速設計,因此相較于其他基于復雜算法的開源信息處理,基于規則判斷的開源信息處理能夠快速、高效地滿足輕量數據的分類和篩選需求。二是手工規則可以充分利用專家的主觀經驗判斷力,能夠在某些數據分析領域中準確描述分析需求,定位關鍵問題,例如對于具體自然語言的解釋和推斷等。但與此同時,手工規則對專家的專業知識的高要求導致規則維護所需的人工開銷大,容易被專家知識的偏向性影響,且囿于數據的復雜性而難以處理大量數據。
Tariq Soomro 等人[7]分析了收集自2020 年3月1 日至2020 年5 月31 日的超過1 800 萬條與冠狀病毒有關的Twitter 消息,并利用基于規則的監督機器學習工具Vader 來進行情感分析,以評估公眾情緒與新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)病例數之間的關系。此外,該研究還分析了在推文中提到一個國家的數量與該國COVID-19 每日病例數的增加之間的關系。該研究發現,一些結果表明在意大利、美國和英國提到的推文數量與這些國家每日新COVID-19 病例數的增加之間存在相關性。
4.2 基于機器學習的開源信息處理
在開源信息處理中廣泛應用的傳統機器學習算法主要包括決策樹類算法、樸素貝葉斯、最近鄰居算法、支持向量機、邏輯回歸等。開源信息處理中應用機器學習的優勢主要在于能夠有效平衡專家經驗知識和算法自動化的影響,能夠處理結構化和非結構化等多種數據類型,具有較高的容錯性、可擴展性。然而,傳統機器學習仍然存在對數據預處理要求高、過度依賴手工特征等問題,特征提取中專家知識的專業性和偏向性將對算法輸出產生較大影響。
Balaji 等人[8]對使用機器學習進行開源信息處理分析,尤其是社交媒體分析方面的研究進行了綜述。該綜述認為,機器學習已經成為社交媒體分析的基礎技術手段,在社交媒體的情感分析、用戶畫像、社交網絡分析、事件檢測和推薦系統等方面發揮著重要作用,技術類型包括監督學習、無監督學習、半監督學習等,F有研究面臨的挑戰主要在于數據獲取、數據質量、算法效率、模型解釋性等方面,可以在算法的效率和準確性,如特征選擇、深度學習、自適應算法等角度開展進一步研究。
Khadjeh Nassirtoussi 等人[9]對文本挖掘在開源股市預測方面的應用研究進行了綜述。文本挖掘在股市預測方面的應用已經得到了廣泛的研究,數據源主要包括新聞、社交媒體、公司報告、股市評論等方面的數據。在方法和模型方面,研究者們主要采用了機器學習、自然語言處理、情感分析等技術來進行文本挖掘和預測。該論文指出,文本挖掘在股市預測方面的應用可以提高預測的準確性和效率,但數據來源不確定、模型過度擬合等問題帶來的預測效果下降的情況不容忽視。因此,在進行文本挖掘的時候需要注意數據的質量并選擇合適的模型和方法,以提高預測的準確性和可靠性。
Abbass 等人[10]提出了一個基于開源數據進行社交媒體犯罪行為預測的技術框架,涉及的網絡犯罪類型包括網絡跟蹤、網絡欺凌、網絡黑客、網絡騷擾和網絡詐騙。該框架由三個模塊組成,包括數據(推文)預處理、分類模型構建和預測。為構建預測模型,該研究使用了多項式樸素貝葉斯(Multinomial Naïve Bayes,MNB)、K 近 鄰(K Nearest Neighbors,KNN)和支持向量機(Support Vector Machine,SVM)對數據進行分類,以確定不同的犯罪類別。使用這些機器學習算法的N-Gram語言模型來識別n的最佳值,并測量系統在不同n取值(例如Unigram、Bigram、Trigram 和4-gram)下的準確性。實驗結果表明,所有三個算法的精確度、召回率和F 值均超過0.9,其中支持向量機表現略優。
Ghazi 等人[11]提出采用有監督的機器學習從不規整、高噪聲、海量的開源非結構化威脅信息數據中提取威脅數據源,提取精度約為70%,且該方法能生成符合STIX 等標準的全面的威脅報告,進而幫助組織主動防御已知和未知的威脅,減少手動分析的煩瑣工作。
4.3 基于神經網絡的開源信息處理
神經網絡系列算法已經廣泛應用于開源信息處理分析領域,主要包括前向全連接網絡、卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡、圖卷積神經網絡、自編碼器、生成對抗網絡、殘差網絡等,以及深度學習、注意力機制、預訓練模型、增強學習、遷移學習、少樣本學習等新型學習框架的應用。神經網絡分析方法的優勢在于能夠自適應和自我學習,可以進行端到端的學習和操作,對非線性和復雜數據具有良好的擬合能力,適合進行預測和分類任務。然而,神經網絡的模型訓練需要大量的數據和計算資源,模型的可解釋性有待提高,難以評估網絡的魯棒性,模型容易出現過擬合情況。
Martins 等人[12]提出了一種基于神經網絡的聯合學習框架,將命名實體識別(Named Entity Recognition,NER)和實體鏈接(Entity Linking,EL)兩個任務結合在一起進行學習,實現協同優化。該方法主要包括三個組件。一是共享編碼器,用于將輸入的文本轉化為向量表示。二是NER 解碼器,用于預測文本中的命名實體。三是EL 解碼器,用于將預測出的命名實體鏈接到知識庫中的實體。該框架的主要特點是可以同時考慮文本中的命名實體和知識庫中的實體,從而能夠提高NER 和EL 兩個任務的準確率。此外,該框架還可以通過聯合訓練來減少模型的訓練時間和資源消耗,提高模型的效率。以CoNLL 2003 和AIDA CoNLL-YAGO 為數據輸入的實驗結果表明,與單獨訓練NER 和EL 模型相比,該聯合學習框架可以顯著提高NER 和EL 兩個任務的準確率,并且可以在保持準確率的同時減少模型的訓練時間和資源消耗。
Su 等人[13]對基于深度學習的社團發現研究進行了綜述。該綜述認為從算法的角度來說,現有研究主要分為兩類,即基于節點表征學習的方法和基于圖表征學習的方法。前者主要通過學習節點的向量表征來判斷節點之間的相似性,后者則是通過學習圖的嵌入表征來捕捉社區結構和節點間的關系。其中,基于圖表征學習的方法相對于基于節點表征學習的方法更具優勢,因為它能夠更好地捕捉節點之間的結構和關系,從而更精確地刻畫社區結構,F有研究的挑戰主要在于如何利用深度學習方法更好地發現社區結構,如何應對噪聲、稀疏性和異質性等問題,以及如何處理大規模網絡數據的問題。
Garcia 等人[14]針對COVID-19 病例數和死亡數均較高的巴西和美國兩個國家開展了基于開源數據的主題識別和情感分析研究。該研究使用了共計六百萬條英語推文和葡萄牙語推文,比較和討論兩種語言的主題識別和情感分析的效果,并基于討論熱度排名的10 個主題進行了話題演化分析。該研究填補了葡萄牙語開源分析方面的研究空白,并對情感趨勢的長期分析及其與新聞報道的關系進行了探究,比較了疫情下兩個不同地區的人類行為。
Hashida 等人[15]提出了一種基于深度學習的分類方法,采用一種新的分布式單詞表示方法——多通道分布式表示法,表示一個單詞潛在特征的單詞向量。在此基礎上,為了進一步增強分布式表示的能力,該研究在多通道分布式表示中使每個項都包含多個通道值。與其他CNN 模型和長短期記憶模型(Long Short-Time Memory,LSTM)進行的對比實驗結果表明,深度學習模型的分類性能優于樸素貝葉斯分類器,同時具有多通道分布式表示的CNN在分類推文方面表現更好。
4.4 基于復雜網絡的開源信息處理
開源信息處理中采用的復雜網絡分析主要面向圖結構的開源信息處理數據進行處理,常用于傳播分析、用戶關聯關系挖掘等任務。復雜網絡分析通過模擬分析大規模圖結構的復雜系統,包括網絡拓撲結構和系統動力學,在系統演化方面具有分析優勢、較高的容錯性和魯棒性。然而,復雜網絡分析對數據量的要求很高,計算復雜度高,可解釋性和可控制性較弱。
Berahmand 等人[16]提出了一種改進歐幾里得隨機游走有效的方法進行鏈路預測。該方法鼓勵隨機游走向具有更強影響力的節點移動,每一步都根據所在節點的影響力選擇下一個節點。該研究基于互信息度量,提出了節點之間的非對稱互惠影響的概念。實驗結果表明,與其他鏈路預測方法相比,所提出的方法有更高的預測準確性。
Li 等人[17]提出了一種基于自因果推斷中的混雜因素分析的無偏網絡混淆技術,以解決推薦系統中非隨機缺失(Missing-Not-At-Random,MNAR)的問題。該方法通過控制社交網絡的混淆保留觀測到的曝光信息,同時可以通過平衡表示學習實現去混淆,以保留主要的用戶和物品特征,在推薦評級預測方面具有很好的泛化能力。
Naik 等人[18]面向社交網絡復雜社團劃分的并行處理和共享/分布式技術應用情況開展了綜述研究。該研究全面討論了在現有的社群檢測方法中應用并行計算、共享內存和分布式內存的情況。
5 決策支撐
5.1 信息可視化
信息可視化通過將數據呈現為可交互的實體,幫助用戶更快捷、更直觀地理解信息,并在分析過程中更快捷地定位信息中的關鍵結構和重點內容。
Gonzalez-Granadillo 等人[19]使用Gephi 和D3.js兩種工具進行開源信息處理的網絡可視化及界面交互。該研究將網絡中的節點和邊用圖結構的形式在屏幕上呈現,方便用戶直觀地了解文本或其他類型數據中的關系,并提供更為豐富的交互式可視化,比如通過鼠標拖拽、縮放和篩選等手段,實現對可視化數據的自定義和過濾。Hoppa 等人[20]使用多種數據可視化技術,如熱力圖、時間線、餅圖和條形圖等,以幫助用戶更好地理解和分析收集到的Twitter 開源信息處理數據。
5.2 報告生成及信息共享
信息報告生成有助于總結分析過程和結果,有利于信息的共享。信息共享的技術特點和效果通過提高安全性、可持續性和可擴展性,使得安全生態系統的不同組織和應用程序之間可以更好地協作和共享信息數據,支持更有效的安全決策和風險管理。
Cerutti 等人[21]利用語言生成技術生成報告,并對分析過的數據進行整理和歸納,該報告能夠清晰地反映事件的發展過程、現狀和未來預測。該技術的優點在于將已有數據進行人類語言轉化的同時,能夠提高報告生成的效率和準確性。生成的報告還可以提供交互式的方式,使用戶能夠根據自己的需求自由地選擇并瀏覽報告中的信息。
Schwarz 等人[22]根據抓取到的數據和分析的結果,自動化地生成報告。報告生成的過程中可以完成報告格式的設定,包括報告樣式、字體大小等。同時,也可以根據用戶的需求進行調整,并且可以輸出多種格式的文件,如PDF、WORD、HTML 格式的文檔等。
Suryotrisongko 等人[23]將可解釋人工智能(Explainable Artificial Intelligence,XAI)引入到開源信息處理中,實現了威脅信息的報告生成及共享。該研究利用XAI 技術解釋機器學習算法的特征決策貢獻,從而加強對惡意域名生成算法的識別、查找和分析。同時,XAI 技術也可以讓分析人員更直觀地理解和分析算法的結果,提高了分析的準確性和可靠性。對于報告生成,通過數據庫技術來存儲搜集到的威脅信息,并利用可視化技術將數據進行匯總和組織。報告不僅可以反映出威脅信息的趨勢和異常點,還可以展示詳細的信息內容和歷史數據,讓用戶能夠更好地理解和利用數據。
6 應用系統
在互聯網大數據時代,世界各國不斷加大對開源信息處理的研究部署和系統開發的投入,形成的有關成果系統已紛紛得到應用。
美國中央情報局、國家安全局等機構支持研發并應用了由Palantir 公司設計開發的Gotham 開源信息處理分析系統[24]。該系統的特點是能夠處理大量的多源異構信息數據,進行數據的全方位整合與挖掘,并提供強大的數據可視化、模擬分析、信息查詢和預測建模等功能。在美國政府和軍隊部門方面,Palantir Gotham 系統被廣泛使用。在阿富汗和伊拉克戰爭期間,該系統被用于收集、整理和分析情報信息,發現恐怖組織的嫌疑人并進行定位。
I2-Analyst’s Notebook(i2AN)[25]是美國IBM公司開發的一款面向情報分析領域的數據分析軟件,主要用于互聯網開源犯罪情報分析、反恐調查、金融欺詐案件分析、情報綜合分析等。i2AN 擁有多種分析功能,包括人物、地點、組織關系的可視化分析、時間線分析等,能夠挖掘出隱藏在數據中的潛在線索,理清有關事件的脈絡,幫助用戶更加快速準確地做出判斷,并可將所提供的信息、證據和結論生動展示給申請人和決策者。i2AN 的用戶包括了全球許多機構和部門,特別是在美國政府和軍隊部門方面,包括聯邦調查局、中央情報局、國土安全部等部門都在使用該軟件。
Rosette[26]是美國Babel Street 公司的開源信息處理產品,旨在幫助分析人員從多種非結構化數據源中獲取信息,并進行相關的分析和預測,包括社交媒體、博客、新聞報道、圖片和音頻等。與傳統的信息分析方法不同,Rosette 采用了自然語言處理、機器學習和人工智能等前沿技術來輔助分析人員進行信息分析。它具有多種語言支持、實時數據收集和處理、可視化分析和用戶定制等特點。Babel X在美國和其他國家的軍隊和情報機構中得到了廣泛的應用。
此外,現在已有很多開源信息處理分析工具供世界范圍內的研究者使用。SpiderFoot[27]是一款開源的自動化信息收集工具,可幫助用戶收集數據、分析數據、生成報告及進行關聯分析,可用于情報分析、網絡偵察、趨勢分析和風險評估等。theHarvester[28]是一款使用Python 編程語言開發的命令行工具,可幫助安全研究人員、滲透測試人員、信息安全企業、國家安全機構等用戶,從互聯網上收集各種類型的信息,如電子郵件、域名、虛擬主機、URL、IP 地址等。Metagoofil[29]是一款開源的可定制搜索引擎,支持從Google、Bing 和Yahoo 等搜索引擎中獲取有關目標的信息,旨在幫助安全研究人員、滲透測試人員和安全顧問等用戶,從互聯網上搜索與目標公司或組織相關的文件,如文檔、圖片、代碼和其他文件。Mitaka[30]可以將多源數據聚合,自動檢測并刪除無用數據,并提供各種圖表和視圖,幫助用戶更好地理解數據和信息。
7 現有挑戰
在世界各國和學術界的共同推動下,開源信息處理技術已取得長足進步,但仍面臨以下3 個方面的挑戰。
一是數據質量方面的挑戰。數據是一切開源信息處理分析的基石,而開源信息處理通常面對巨大的數據量,且不同源的數據結構不統一,信息缺損的情況頻繁發生,數據可靠性評估過于依賴專業知識,提高了人力、時間和空間開銷。
二是分析算法方面的挑戰。如今,開源信息處理常面臨跨域目標分析需求,如何構建合理的目標行為表征,將跨域多源信息與目標進行有效關聯,實現對目標的全面分析,是如今開源信息處理研究面臨的關鍵技術挑戰。
三是法律倫理方面的挑戰。開源信息處理使用開源數據時須遵守相應的倫理規范和法律法規,尤其是在處理敏感領域及個人隱私方面的信息時,如何從技術上實現敏感及個人信息保護,防范化解敏感信息泄露風險,是如今開源信息處理分析面臨的挑戰之一。
8 未來展望
未來開源信息處理的研究大致有三個方向。一是先進技術在開源信息處理中的應用,尤其是以深度學習為代表的人工智能技術,其在開源信息處理領域的應用將會有效支撐開源數據的快速處理和信息的精準分析。二是跨學科研究。由于開源信息處理涉及很多不同的領域,如商業、政治、軍事、國際關系等,如何將領域知識與開源信息處理相結合,在實際領域應用中解決實際的信息分析問題,將成為開源信息處理未來的研究熱點。三是決策支撐和信息檢索優化。如何將開源信息處理數據通過信息可視化的方式呈現出來,生成信息分析報告并有效地傳遞到用戶手中,提供高效的信息檢索方式,將是未來開源信息處理的研究方向之一。
9 結語
開源信息處理具有數據獲取簡易、信息覆蓋面廣等優勢,現已成為世界各國研究的熱點,相關成果已應用于社會各領域并發揮著重要作用。本文對當前國外開源信息處理研究的進展進行了綜述。在技術方面,本綜述覆蓋了數據采集、數據預處理、信息分析和決策支撐4 個開源信息處理關鍵步驟的有關技術,其中人工智能技術在開源信息處理中的應用最為廣泛。在應用系統方面,本綜述對國外流行的開源信息處理系統進行了介紹,包括商業系統和開源系統。在現有挑戰方面,數據質量、算法分析和法律倫理是現有研究面臨的主要挑戰,而先進技術的應用、跨學科研究、決策支撐和信息檢索優化將是未來開源信息處理的研究熱點。