国产91免费_国产精品电影一区_日本s色大片在线观看_中文在线免费看视频

您現在的位置：通信界 >> 智慧 >> 新聞正文

開放式數據湖倉，釋放數據分析無限潛能

[ 通信界 / 張一沖 / www.6611o.com / 2022/7/24 12:10:16 ]

Cloudera 客戶運行著地球上最大的一些數據湖。這些湖為關鍵任務大規模數據分析、商業智能 (BI) 和機器學習用例，包括企業數據倉庫，提供動力。近年來，創造了“數據湖倉”一詞來描述這種對數據湖中的數據進行表分析的架構模式。在匆匆奔向這個術語的過程中，許多廠商忽略了這樣一個事實，即數據架構的開放性是其持久性和長盛不衰的保證。

關于數據倉庫和數據湖

數據湖和數據倉庫將海量的各種類型數據統一到一個中心位置。但是有著截然不同的架構世界觀。數倉是為SQL 分析垂直集成的，而數據湖優先考慮 SQL 之外的分析方法的靈活性。

為了能兼得魚與熊掌——數據湖中分析的靈活性和數倉中簡單快速的 SQL，企業經常部署數據湖來補充他們的數倉，在數據提取、轉換、加載 (ETL) 或 ELT 管道的最后一步讓數據湖為數倉系統提供數據。在這樣做的過程中，他們等于接受了數據在倉庫中的鎖定。

但可以有一個更好的方法：用 Hive 元存儲，這是過去十年數據平臺一個出人意料的好產品。隨著用例的成熟，我們看到高效的交互式 BI 分析和事務語義來修改數據的需求。

數據湖倉的迭代

第一代 Hive元存儲試圖解決在數據湖上高效運行 SQL 的性能考慮。它提供了數據庫、模式和表的概念，用于描述數據湖的結構，讓 BI 工具可以有效地充分使用數據。它添加了描述數據邏輯和物理布局的元數據，支持基于成本的優化器、動態分區裁剪以及針對 SQL 分析的一些關鍵性能改進。

第二代 Hive元存儲添加了對使用 Hive ACID 的事務更新的支持。數據湖倉雖然尚未正式命名，但已開始熱鬧。事務性啟用了持續攝取和插入/更新/刪除（或合并）的用例，從而打開了數倉樣式的查詢、功能以及從其他數倉系統到數據湖的遷移。這對我們的許多客戶來說非常有價值。

Delta Lake項目采用不同的方法來解決這個問題。Delta Lake為數據湖中的數據添加了事務支持。可以進行數據策管，為數據湖帶來了運行數倉式分析的可能性。

漸漸的在某個時刻，“數據湖倉”這個詞因為這種架構模式而被造出來了。我們相信湖倉是簡潔地定義這種模式的好方法，并很快在客戶和行業中獲得了共識。

開放數據湖倉滿足互操作性需求

在過去幾年中，隨著新數據類型的誕生和新的數據處理引擎的出現，為了簡化分析，企業所期望的兩全其美真的需要分析引擎的靈活性。如果企業海量有價值的數據需要被管理，那么企業必須能夠開放的選擇不同的分析引擎，甚至是供應商。

湖倉模式在實施過程中存在一個嚴重的矛盾：雖然數據湖是開放的，但湖倉卻不是。

在能夠添加 Impala、Spark 等引擎之前，Hive元存儲一直遵循 Hive為先的演進。Delta lake是Spark為主的演進；如果客戶想要自由選擇不同的引擎而不只是表格式，他們的選擇極為有限。

客戶從一開始就要求更多。更多格式、更多引擎、更多互操作性。今天，Hive 元存儲被多個引擎和多個存儲選項使用。除了 Hive 和 Spark，還有 Presto、Impala 等等。Hive元存儲是有機地演進支持這些用例，因此集成通常很復雜且容易出錯。

為滿足互操作性需求而設計的開放數據湖倉從根本上解決了這一架構問題。它會讓那些全押在一個平臺上的人感到不安，但社區驅動的創新能幫助解決現實世界的問題，以務實的方式幫助使用同類最佳工具，并克服供應商的鎖定。

開放湖倉Apache Iceberg的誕生

Apache Iceberg 從一開始構建時，其目標就是在多個分析引擎在云原生規模上輕松實現互操作。這項創新的誕生之地 Netflix 需要將 100 PB 規模的 S3 數據湖構建到數倉中，這可能是最佳示例了。云原生表格式由其創建者開源到 Apache Iceberg 中。

Apache Iceberg 真正的超級力量是它的社區。在過去三年中，Apache Iceberg 社區有機地蓬勃發展，增加了一系列令人贊嘆的優異集成：

· 數據處理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

· 多種文件格式：Parquet、AVRO、ORC

· 社區中的大型采用者：Apple、LinkedIn、Adobe、Netflix、Expedia 等

· AWS Athena、Cloudera、EMR、Snowflake、騰訊、阿里巴巴、Dremio、Starburst 的托管服務

使這個多樣化的社區蓬勃發展的原因是數千家公司的集體需求，以確保數據湖可以演變為包含數據倉庫，同時保持跨引擎的分析靈活性和開放性。這使得開放式湖倉成為可能：為未來提供無限的分析靈活性。

Cloudera擁抱Iceberg模式

在 Cloudera，我們為我們的開源根基感到自豪，并致力于社區貢獻。自 2021 年以來，我們為日益壯大的 Iceberg 社區在 Impala、Hive、Spark 和 Iceberg 上做出了數百項貢獻。我們擴展了 Hive 元存儲將集成添加到我們的許多開源引擎中以充分利用 Iceberg 表。2022 年初，我們在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技術預覽，使 Cloudera 客戶能夠在我們的數據倉庫、數據工程和機器學習服務中實現 Iceberg 的模式和時間旅行能力。

我們的客戶一直告訴我們，無論是現代 BI、AI/ML、數據科學還是更多，分析需求都在迅速發展。選擇由 Apache Iceberg 提供支持的開放數據湖倉讓企業可以自由選擇分析。

作者：張一沖　合作媒體：通信界　編輯：顧北

　熱點新聞

同級最強！天璣8200實測成績放出，iQOO Neo7 SE神機配神U	中國信通院：我國部署超 7900 張 5G 行業虛擬專網
省內首個智慧康養平臺，點亮“銀發族”數智生活	中國移動與中國寶武簽署戰略合作框架協議
云巨頭深陷高管離職風波！三千億美元市值已蒸發一大半	中國軟件三十年：煙塵隱入，夾縫重生
馬斯克世界首富之位被LVMH老板短暫超越	蘋果將推“高級數據保護”功能允許用戶對更多iCloud備份數據進行加
臺積電加大對美投資建廠，半導體關鍵技術會外流嗎？	數字化融入生活方方面面，紅帽助力客戶實現多維轉型
愛立信移動市場報告：2028年5G簽約數將超過50億	我國將邁入百億物聯發展征途分三階段實現
黑客帝國重現？馬斯克腦機公司將開展人體試驗：有點瘋狂	OpenAI發布新作：ChatGPT聊天機器人
2023年人工智能發展預測企業如何成功采用AI？	愛立信：5G增長快于以往任何一代移動通信
突破千萬大關之后被誤讀低估的VR	臺積電1nm新廠計劃已上報將落地新竹
三大運營商股價創年內新高，新發展模型下價值如何重估？	解密“個人信息保護認證”

　　版權與免責聲明： ① 凡本網注明“合作媒體：通信界”的所有作品，版權均屬于通信界，未經本網授權不得轉載、摘編或利用其它方式使用。已經本網授權使用作品的，應在授權范圍內使用，并注明“來源：通信界”。違反上述聲明者，本網將追究其相關法律責任。 ② 凡本網注明“合作媒體：XXX（非通信界）”的作品，均轉載自其它媒體，轉載目的在于傳遞更多信息，并不代表本網贊同其觀點和對其真實性負責。 ③ 如因作品內容、版權和其它問題需要同本網聯系的，請在一月內進行。

通信視界

	新華三：云智原生 AD-NET構筑智能聯接新底座通信界訊隨著“十四五”改革開放不斷落地以及數字……
	華為林永明：ADN 鋪就高階自智網絡之路 2022年10月28日，國際標準組織TM For……

中國移動丁海煜：三大方向十大技術，5G-A賦
普通對話

英特爾王銳：中國戰略是我們的全球戰略之重
普通對話

新華三：云智原生 AD-NET構筑智能聯接新底座
普通對話

華為林柏楓：聯接升級，激發商業增長
普通對話

華為林永明：ADN 鋪就高階自智網絡之路
普通對話

NVIDIA發力數字孿生：站在虛擬和現實之間
普通對話

韋樂平：網絡深度轉型最明確的方向首先就是
普通對話

中國工程院院士鄔賀銓：6G標準面臨小圈子風
普通對話

華為丁耘：綠色ICT，共創新價值
普通對話

愛立信中國區總裁方迎：將在中國市場重點做
普通對話

中國聯通買彥州：廣電5G商用對行業競爭格局
普通對話

中國聯通陳忠岳：從“提速降費”向“提速提
普通對話

華為胡厚崑：5G+工業互聯網數據驅動是關鍵
普通對話

華為郭平：每個人磨好自己的豆腐，就會有一
普通對話

中國移動楊杰：加快推進新型平臺用工模式規

通信前瞻

	北斗三號衛星低能離子能譜儀載荷研制成功記者27日從中國科學技術大學了解……
	中國移動李慧鏑：強化數智基建驅動推進產業轉通信界訊當前產業數字化進程加速推進，數字經……

物聯網設備在智能工作場所技術中的作用
普通對話

軟銀研發出以無人機探測災害被埋者手機信號
普通對話

AI材料可自我學習并形成“肌肉記憶”
普通對話

北斗三號衛星低能離子能譜儀載荷研制成功
普通對話

為什么Wi-Fi6將成為未來物聯網的關鍵？
普通對話

馬斯克出現在推特總部收購應該沒有懸念了
普通對話

臺積電澄清：未強迫員工休假或有任何無薪假
普通對話

新一代載人運載火箭發動機研制獲重大突破
普通對話

多管齊下，VMware跨云服務助力企業云轉型
普通對話

中國移動李慧鏑：強化數智基建驅動推進產業
普通對話

蘇少林：打造北京數字經濟“五強”，助力標
普通對話

中國科大在高安全量子密鑰分發網絡方面取得
普通對話

華為楊超斌：邁向5.5G持續創新，開啟5G產業
普通對話

中國聯通買彥州：加強創新力度，協同推進6G
普通對話

信通院總工敖立：5G工業模組是產業鏈特別短