中小企業診断士1次試験 用語集 経営情報システム
データベース

データレイク

Data Lake

概要

構造化・非構造化を問わず、あらゆるデータを生のまま蓄積する大規模データ格納基盤。

詳細解説

データレイクは、構造化データ(RDBのテーブルデータ等)、半構造化データ(JSON、XML等)、非構造化データ(テキスト、画像、動画等)を、変換せずに生のまま蓄積する大規模なデータストレージである。

DWHが分析目的に合わせてデータを整理してから格納するのに対し、データレイクは目的を限定せずにまず蓄積し、後から必要に応じて加工・分析する。ビッグデータやAI分析の基盤として注目されているが、管理が不十分だとデータスワンプ(データ沼)に陥るリスクがある。

事例・具体例

企業のWebサイトのアクセスログ、SNSの投稿データ、IoTセンサーの計測データなど、多様な形式のデータをそのままデータレイクに蓄積し、AIによる分析に活用する。