導讀:在數字化浪潮到來的今天,數據分析的重要性越來越高,圖作為一個高維的數據結構,可以為企業提供更加精準高效的決策,賽道未來發展可期。
圖是事物及其關系的抽象表達。在以圖數據成為生產要素的數字經濟時代,圖智能在工業、教育、醫療、金融等領域展現出了強大的成長潛力。
圖計算成為數據的底座。9月1日,在2022世界人工智能大會上,“新一代圖智能技術發展與實踐論壇”如期舉行,從產學研不同視角對圖技術進行討論。
在論壇上,螞蟻集團圖計算負責人陳文光宣布開源螞蟻集團高性能圖數據庫TuGraph單機版,并成立圖計算開源技術委員會,中國工程院院士鄭緯民、陳純分別擔任主席、副主席,5位業界知名專家擔任委員。隨著TuGraph的開源,圖數據領域將迎來一款性能卓越、功能豐富、生態完備的開源產品。開發者可以聚焦應用層,輕松打造屬于自己的圖數據,從而提升行業整體技術應用水位。
中國工程院院士、清華大學教授鄭緯民認為,當前圖數據庫正在成為發達國家科技企業競相布局的新興熱門領域。在圖數據庫時代,我們有機會與國外企業同期起步,現在布局正當其時。
關系是最高價值特征
據了解,今年是世界人工智能大會舉辦的第五年,“科技風向標、產業加速器”是這場全球AI領域的行業盛會對參展技術與產品的期許。
圖計算里的圖(Graph)并非圖片,而是來源于圖論,是用于表達對象之間關聯關系的一種抽象數據結構,核心要素是點和邊,分別代表對象和對象之間的關系。“傳統的關系數據它其實是一個表的模型,不是一個很直接的方式,也非常不靈活。”螞蟻技術研究院院長、螞蟻集團圖計算負責人陳文光表示,“圖數據沒有強行把一個原生的關系變成一個表,再用表來表示這個關系,而是直接把這個關系表達出來,所以它是一個最靈活的數據模型。”
因此,圖計算在處理大規模復雜關聯關系時非常有效,它是對復雜關系的一種新的建模方式,為更深刻地理解這個世界提供了一種有效的工具。在實際運用中,圖可以將各類數據聯系起來,將不同來源、不同類型的數據融合到一個圖里進行分析,可以得到獨立分析難以發現的結果。
那么會有怎樣的增量信息被圖計算挖掘呢?
陳文光舉例稱,當一個人的屬性你知道的非常少的時候,判斷他是好人還是壞人很有難度,但將“關系”考慮其中,結合“與他相關”的整體來看,一切則變得有跡可循,也就更容易做出判斷。“在圖上有很多的方法,其實都幫我們給出一定的可解釋性。”
以搜索引擎Google為例,如何判斷哪些網頁的重要程度高于其他網頁?Google做的就是網頁排序,兩位創始人提出了一個叫做PageRank的算法,這個算法的核心就是把互聯網上每一個網頁抽象成一個點,網頁上的超鏈接又鏈接到其他的網頁,就構成了這個點上的邊,由此將一個網頁與其他網頁相關聯,通過網站外部鏈接的數量和質量來判斷其重要性。
PageRank是圖計算中經典的算法,也是Google瀏覽器脫穎而出的因素之一,“關系”的價值在這個實例中得到充分展現。
Gartner 在《2021 年十大數據和分析技術趨勢》報告中預測,到2025年,圖技術將應用于80%的數據和分析創新。目前,在金融、互聯網、工業、醫藥、公共衛生、公共安全等領域都有很多的應用。
未來應用可能性
去年4月12日,人民日報刊發的文章《高性能圖計算:尖端科技下一個前沿》稱:在我國發展高性能圖計算,具備良好的技術基礎和現實條件。一方面,人們如今的日常生活離不開高性能計算。天氣預報、新藥研發、新型材料、安全系數更高的汽車、高鐵和飛機等都需要高性能計算作支撐。另一方面,由于圖的優秀表達能力、可視化效果和堅實的數學基礎,圖計算也已在國家安全、金融安全等方面有很高的價值。
螞蟻集團圖數據庫負責人洪春濤表示,圖技術是未來大數據、人工智能和高性能計算產業發展的關鍵所在,它很有可能會成為下一代的數據底座。
以螞蟻集團為例,圖智能已經成為螞蟻科技底座之一,被成熟應用于螞蟻集團的支付和數字金融場景,包括全圖風控、反洗錢、反欺詐、保險知識圖譜、花唄圖譜等。據了解,至今TuGraph已應用于螞蟻內部150多個場景,包括在線支付的實時鏈路,以支付寶風險識別能力提升近10倍、風險審理分析效率提升90%的成績,驗證了其高可靠性。
上月,LDBC(關聯數據基準委員會)發布最新圖數據庫SNB測試結果,TuGraph在功能完整性、吞吐率、響應速度等層面全球領先。
華中科技大學教授金海認為,圖是未來人工智能大數據分析的核心,而目前來看,這個方向的應用還比較有限。
杭州悅數科技首席執行官葉小萌在接受21世紀經濟報道記者采訪時表示,圖計算在學界發展多年,但業界是在近兩三年才逐步發展起來的,還處于初期,目前仍面臨如何尋找用戶痛點的問題,“怎樣用圖的技術去解決用戶的問題是商業上的挑戰。”
而用戶方面,對于圖技術能帶來什么價值,大多數用戶也并不足夠了解。“從我們的角度來說,我們要去理解用戶的場景,幫用戶找到圖技術的應用。”葉小萌表示。
此次開源也意味著,螞蟻集團愿意通過開源持續輸出核心技術優勢,推動圖數據庫更廣泛的應用生態。
陳文光認為,開源可以幫助企業得到更多的外界輸入,看到業界更多的需求的時候可以避免走彎路。亞馬遜上海人工智能研究院資深應用科學家王敏捷有類似的感受,他認為開源有助于快速的反饋迭代,但在面臨多樣客戶時,對團隊的管理也有很大挑戰。
在數字化浪潮到來的今天,數據分析的重要性越來越高,圖作為一個高維的數據結構,可以為企業提供更加精準高效的決策,賽道未來發展可期。