資料湖 (Data Lake) 是一個近年來越來越被企業用戶看重的名詞。
 

從 Pentaho公司的創始人兼技術長的 James Dixon 於 2010 年首次提出資料湖的概念,將資料湖定義為將超大規模且成本相對低廉的儲存空間,例如 Hadoop 儲存任何類型或非結構化的資料,直到組織需要作企業分析或資料探勘 (Data Mining) 時才會取出資料。因此,資料湖儲存的資料將是最原始的形式,且未經過任何處理及管理。

         如同資料倉儲一樣,資料湖僅是一種概念而非技術,因此我們可以使用各種的技術來架構建置資料湖泊,在本質上資料湖的概念也可以說是一種資料儲存的策略。

         資料湖的設計概念是為了盡量多收集資料以做為日後企業分析時所用,因此當資料倉儲的存儲成本不適用某些大規模的輸入資料情境下,使用資料湖就相當適合。在資料湖的架構中,使用者無需事先建置好資料結構(Schema),資料本身是可以結構化、非結構化或是二進制資料的格式存儲,因此輸入資料相當簡單,一旦真正需要讀取資料時再建立或套用資料結構即可。

         資料湖並非既有分析平台或架構的取代方案,而是用來彌補既有架構的不足,並協助企業探索新的問題。一旦企業找到新的問題,就可以設法給出「最佳解」,所以資料湖也是一種問題導向的企業解決工具。

         然而,即便資料湖帶給客戶的價值已逐漸清晰,但從資料湖提出至今的十年期間仍經歷了各種各樣的「挫折」。率先完成資料湖價值落地最後一哩路的卻不是任何開源廠商,也不是傳統的存儲廠商,而是以 AWS 為代表的雲服務提供商們,其背後的原因是 AWS 作為早期推動資料湖服務的公司,其推出的資料湖解決方案成功並不是偶然。

         Amazon 作為全球最大的互聯網與雲端服務公司之一,其自身資料規模、資料複雜度、資料處理難度以及資料價值挖掘在業界無出其右。其次,AWS 資料湖在產品技術層面進行了持續的提升與完善,其產品組合的成熟度和豐富程度也走在整個業界的前端。

         最直接的例子就是大部分資料湖解決方案都是使用開源的 Hadoop,但光是處理 Hadoop 集群的計算和存儲架構,就使得整體的資料湖架構擴展成本變的很高且低效能;而在 AWS構建資料湖解決方案時候,很重要的一個選擇就是讓「計算」與「存儲」分離,在存儲上採用 Amazon S3 做為存儲體,透過其價格便宜且無存儲上限的特性讓資料湖解決方案可以更好地應用在任何組織業務領域。

         另外,AWS 作為雲端服務的龍頭,其公有雲的環境也有利於資料湖解決方案的建置,並在過去十年中不斷為多個不同行業、不同規模的用戶提供相關的資料湖服務,持續積累豐富的用戶實踐經驗。因此,在產品、解決方案以及用戶實踐上的領先其實就是 AWS 在資料湖領域脫穎而出的秘訣所在。

         過去十年隨著移動化、社交化的普及所帶來的巨量資料,以及資料來源越來越廣泛且多元化,如:5G、物聯網、邊緣計算的興起,巨量資料分析應用已成為趨勢,這恰恰反映出過去十年對資訊應用的需求不斷驅動著資料湖走向落地。當今企業而言,資料湖所產生的價值也已越來越重要,如何善用資料湖消除資訊孤島的問題,對許多企業進行數位轉型期間提供關鍵作用。

         從技術層面來看,雲端計算無疑是過去十年對整個IT產業界帶來最大變革的技術,它的彈性、靈活為資料湖帶來了堅實的基礎。像 AWS 這樣的供應商逐步打造出非常全面與完善的資料湖解決方案,可以涵蓋從資料收集、存儲、分析、應用、到最終的視覺化等各方各面需求。在 AWS 的資料湖平台上所提供的服務包括了資料倉儲、大數據處理、交互查詢、數據分析、資料可視化、即時分析、推薦、以及預測分析。

         事實上,AWS 這種全面的資料湖生態完整覆蓋了資料湖的資料收集、存儲、分析、應用四個階段,並且這些產品、工具以及服務彼此之間也可達到高度整合,快速、便捷地幫助用戶構建起資料湖相關應用。

         AWS 資料湖平台提供許多非常出色的服務,可以幫助用戶解決資料湖中典型的挑戰。例如,Amazon EMR 可以在 AWS 上輕鬆運行 Spark、Hadoop、Hive 等大數據分析。全託管的 EMR 亦解決了開源生態集群部署與維護升級繁雜的痛點,讓用戶可在短期間內快速啟用應用資料湖的開源產品與工具,快速找到問題的最佳解以提昇企業價值。

         Amazon Redshift 則是一款性能優秀、使用簡單、全託管的資料倉庫服務,用戶可輕鬆進行 TB 級規模資料的並行處理與擴展,且可以通過 Spectrum 將查詢擴展到 Amazon S3,與資料湖集成更可以支援至 EB 級的資料湖分析。

         AWS Glue 也是資料湖應用中一款非常重要的服務,它可以幫助用戶建立起無服務器架構的 Catalog 和 ETL 服務,自動解析資料結構並存儲對應的 Schema,並與 AWS Aurora、RDS、Redshift、S3 高度整合,這將給用戶在使用資料湖上帶來巨大好處。舉個例子,用戶若想將數據導入 Redshift,再也不需要花費大量時間自己寫 ETL,只要透過 AWS Glue 就能夠快速完成資料的萃取 (Extract)、轉置 (Transform) 和載入 (Load)。

         資料視覺化上,Amazon QuickSight 是全受管服務,透過與 RDS、Athena、S3 等服務的高度整合,可以讓用戶輕鬆地建立和發佈包含 ML 深入分析的互動式儀表板,並從任何裝置存取儀表板,甚至可嵌入至用戶的應用程式、入口網站和網站之中。QuickSight 同時也是一種快速、採用雲端技術的商業情報服務,可讓用戶輕鬆地將見解提供給組織中的每個人。

         其他像 Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3 等都是AWS上深受用戶喜歡的產品與服務。資料湖在雲端計算時代得以快速發展,它發展到現在已經包含了所有的資料庫、資料倉儲等服務,是企業數據體系的基礎,因此任何想構建資訊平台的企業用戶其實都可以在AWS找到全面的解決方案。

         然而,在眾多的服務商之中挑選既能熟悉資料湖架構又懂得客戶需求的合作夥伴,是一個漫長的過程。銓鍇國際 CKmates 身為 AWS MSP Provider,提供客戶客製化適合企業的解決方案,根據客戶現有的架構狀況,挑選適合的 AWS 服務,進行架構整合,提供完整的資料湖架構解決方案,協助客戶解決數位轉型中的痛點,提升企業價值。