專欄文章

Data Lake House 湖倉一體 現代化數據運用

湖倉一體 現代化數據運用

The world's most valuable resource is no longer oil, but data. (2017, The Economist)

在現代化的社會中,資料對於一間企業的重要性是無可代替的。不論是產品數據研究到公司經營狀況等都離不開最關鍵的資料。現今多數企業都能理解資料的重要性,並且都已有某種程度的蒐集及分析資料的過程,而當今最成功並成長最快速的企業恰恰是那些最能有效蒐集並最大化運用所蒐集到的資料的企業。最成功的案例如 Walmart 以及 Amazon,這兩間公司都是透過關鍵數據不斷地改良自身的倉儲及運送流程,最終在強敵中脫穎而出。又如 Google 的廣告市場,其背後正是因為有龐大的數據支撐才得以成長。

在大數據盛行的2022年,對於這些體系龐大的公司來說,傳統的資料庫甚至資料中心已經無法負荷龐大的資料量,更無法對其進行靈活的運用。因此,資料湖及資料倉儲便是因應此情況而誕生的產品,更在其後誕生集前兩者優點於一身的湖倉一體概念。

 

Data Lake 資料湖


資料湖是可以將各種形式的原始資料做存放的地方,存放在此的資料並沒有形式上的限制,因此彈性非常高。在進行儲存時,不必考慮太多、也不需要額外花費精力進行資料轉換。缺點則是當要將儲存在內的資料作使用時,則必須額外花費精力對資料進行轉換,以變成希望的格式,因此在查詢資料時速度較慢。

AWS 提供的服務中,S3 正是最具代表性的資料湖,其架構允許使用者以物件的形式存放任何資料,並且具備無限擴展性、高可用性和可靠性,讓使用者完全不必擔心地端資料儲存容易碰到的儲存空間上限的瓶頸。AWS 也提供了 AWS Lake Formation 服務來協助客戶快速建立資料湖。


 

Data Warehouse 資料倉儲


資料倉儲為資料庫的延伸架構保留了資料庫在儲存時,需先轉換成設定好的格式 (如 SQL)才能儲存的特性。因此彈性較資料湖差,但在查詢時速度則較資料湖快。

AWS Redshift 為 AWS 資料倉儲的代表性服務,透過 cluster 架構,可同時運用許多 node 協助運算並大幅提高資料查詢的速度。新推出的 Serverless 功能更是讓使用者省去許多複雜的設定,提供使用者快速建立並啟用資料倉儲的選項。


 

Data Lakehouse 湖倉一體


湖倉一體的概念是讓資料在資料湖、資料倉儲、以及特殊的分析服務中,能夠有效地進行流通與連結。此概念便是將蒐集的資料不做任何轉換放在資料湖中,當有需要使用這些資料時,進行資料結構轉換後,轉移到資料倉儲或分析服務中進行運算。湖倉一體的概念將資料存放以及資料運用兩個步驟分解於最適合的架構內進行,以此達到優化的效果,既保留了資料湖的彈性存放、同時具備資料倉儲的快速查詢功能,對於企業來說,此概念能夠協助企業最高效率的運用蒐集到的資料。

此外,AWS S3 配合其他服務便可達到倉湖一體的效果,透過將各種資料存放在 S3 資料湖內,並在需要時將資料轉換到對應服務中,如 Redshift,以進行運算、達到加速運算的效果。S3 提供合理的儲存費用且無須擔心儲存上限。而 Redshift 則提供強大的加速運算能力以及隨需隨用的特點,讓使用者能在需要運算時才開啟 Redshift cluster,以達到省錢的效果。當企業需要從資料湖中對資料進行轉移時,便可使用 AWS Glue 對資料進行分析前的準備,該服務提供一系列資料整合的功能,協助使用者輕鬆的在湖倉一體架構中進行資料的流動。
Data Lake House Architecture on AWS
 

銓鍇國際 CKmates 深耕雲端產業十多年,具備 AWS MSP、Migration Competency 等認證,能根據自身地端遷移上雲的實際產業經驗,協助客戶在搬遷上雲後,持續優化雲端環境。銓鍇國際同時具備 AWS Certified Database – Specialty 、 AWS Certified Data Analytics – Specialty 等資料庫相關證照,協助企業分析現有資料結構,並評估如何在雲端上選擇最適合的服務,讓珍貴的企業資料能在湖倉一體的概念中更方便整合以及流動。透過現代化的數據轉型,您的雲端數位長-銓鍇國際助攻企業將關鍵資料轉換為實際的利潤報酬。

立即諮詢銓鍇國際 CKmates



 

最新文章

加入 Line 好友 加入 Line 好友 歡迎來聊聊 寄信給我們 訂閱電子報
joinline