مفهوم دریاچه داده را می توان به گونه ای توضیح داد که اگر یک انبار داده شبیه به یک بطری آب تصفیه شده، بسته بندی شده و آماده استفاده در نظر بگیریم، سپس دریاچه داده (همانطور که از نامش پیداست) دریاچه ای است که آب از منابع مختلف (آب باران، چشمهها، رودخانهها یا منابع دیگر) به آن میریزند و مردم میتوانند از آب دریاچه برای حمام کردن، نوشیدن یا حتی نمونهبرداری استفاده کنند.
به گزارش ICTNN، امروزه داده ها خیلی سریع شکل می گیرند، کارشناسان معتقدند رشد حجم بالای داده ها باعث شده تا مدل های ذخیره سازی و تجزیه و تحلیل مبتنی بر رایانه های فردی به آنها پاسخی ندهند و از سوی دیگر عوامل متعددی باعث سنت شدن مدل انبار داده شده است. به طور جدی به چالش کشیده شود.
در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید است. دریاچه داده مخزنی است که برای ذخیره مقادیر زیادی از داده ها به صورت بومی طراحی شده است. این داده ها می توانند ساختار یافته، نیمه ساختاریافته یا بدون ساختار باشند و شامل جداول، فایل های متنی، گزارش های سیستم و غیره باشند.
این اصطلاح توسط جیمز دیکسون، مدیر ارشد فناوری یک شرکت نرمافزاری هوش تجاری ابداع شد و هدف آن ایجاد یک مخزن بزرگ است که میتوان مقادیر زیادی داده را در آن ریخت. همه کاربران تجاری می توانند به دریاچه داده دسترسی داشته باشند و نوع اطلاعات مورد نیاز خود را برای برنامه خود دریافت کنند. این مفهوم با انفجار داده های ماشین و کاهش سریع هزینه های ذخیره سازی رایج شده است. اگر بخواهیم تفاوت رویکرد دریاچه داده و انبار داده در تحلیل داده ها را بیان کنیم، با توجه به آنچه در برخی از سایت های تخصصی این حوزه در تعریف این مفهوم مطرح شده است، می توان تفاوت های زیر را به عنوان تفاوت های اساسی بیان کرد:
داده ها به طور کامل در دریاچه داده قرار می گیرند و هیچ داده ای حذف نمی شود. این رویکرد برخلاف رویکرد انبار داده برای ذخیره و پالایش داده ها است که در آن تنها اطلاعاتی در انبار داده قرار می گیرند که می توانند در تجزیه و تحلیل استفاده شوند. دادهها از پایینترین سطوح (مثلاً شرح یک شخص در یک مقاله یا وبسایت) همانطور که هست یا با حداقل تغییرات به دریاچه داده منتقل میشوند، که بر خلاف رویکرد انبار داده، که تبدیل یکی از موارد است، مهم است. مفروضات ورودی اولیه و اولیه به عنوان اطلاعات در نظر گرفته می شود.
بر این اساس، در مثال قبل، امکان ذخیره توضیحات یک شخص در یک مقاله یا یک وب سایت با مدل انبار داده وجود دارد، کافی است کلمات کلیدی را از توضیحات استخراج کرده و در جدول پایگاه داده ذخیره کنید. در دریاچه داده، توضیحات فردی، نحوه حرکت کاربر در یک سایت و اطلاعات حسگر تولید شده توسط دستگاه ها، صرف نظر از منبع و ساختار، ذخیره می شود. این رویکرد برای ذخیره سازی داده ها، که در آن داده ها مستقل از ساختار و منبع ذخیره می شوند، “شما بر روی خواندن” نامیده می شود. این یک رویکرد متفاوت برای ذخیره سازی داده ها در انبار داده است که در آن ابتدا ساختاری که قرار است داده ها در آن قرار گیرند طراحی می شود و سپس داده ها در ساختار قرار می گیرند که نوشتن با ساختار فراخوانی می شود (Schema On Write) ).
نزدیک به 80 درصد از کاربران اطلاعات در بیشتر سازمان ها کاربران تجاری هستند. نیاز این دسته از کاربران تجسم گزارش ها و شاخص های مورد نیاز آنهاست. این عناصر معمولا ساختاری از پیش تعریف شده دارند و رویکرد انبار داده به دلیل ساختارمند بودن اطلاعات برای این دسته از کاربران قابل درک و استفاده است.
درصد کمی از کاربران در سازمان ها به تجزیه و تحلیل داده های عمیق و پیچیده نیاز دارند. دانشمندان داده و دانشمندان داده در این گروه کاربری قرار میگیرند. این گروه کاربری از انواع دادههای ساختاریافته یا بدون ساختار و ابزارهای تجزیه و تحلیل پیشرفته روی دادهها مانند داده کاوی، l mining، تجزیه و تحلیل آماری، مدلهای پیشبینی و تحلیل جریان ناوبری استفاده میکند. سایت و روش های مشابه استفاده می شود. اما به طور معمول، 10٪ از کاربران در یک سازمان نیاز به تجزیه و تحلیل عمیق داده ها دارند. این دسته از کاربران می توانند برای تجزیه و تحلیل های مورد نیاز خود از انبار داده استفاده کنند، اما گاهی اوقات نیاز به دسترسی به منبع اصلی داده ها می شود و کاربران مجبور می شوند به داده های موجود در سیستم های تولید کننده مراجعه کنند.
در حالی که در فرآیند تحلیل پیشرفته، تحلیلگر از قبل نمی داند به کدام ویژگی ها یا داده هایی نیاز است و کدامیک را باید نادیده گرفت، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات می تواند بهتر پاسخگوی تحلیلی باشد. نیازهای این دسته از کاربران را برآورده می کند. با این حال، تفاوت های کلیدی بین دریاچه های داده و انبارهای داده وجود دارد که به طور سنتی برای تجزیه و تحلیل داده ها مورد استفاده قرار می گرفتند. ابتدا، انبارهای داده برای داده های ساخت یافته طراحی شده اند.
واقعیتی که دریاچه های داده طرح واره ای را بر داده ها تحمیل نمی کنند. در عوض، زمانی که دادهها خوانده یا از دریاچه دادهها استخراج میشوند، از طرح واره استفاده میشود.در نهایت، دریاچههای داده محبوبیت بیشتری پیدا میکنند و دانشمندان دادهای بیشتری نسبت به تحلیلگران تجاری قبلی بیشتر روی یک اعلامیه کار میکنند.
ICTNN
تیم تحرریه شبکه خبری فناوری اطلاعات و ارتباطات