«داده های باز» متعلق به دولت نیست

 
رییس سازمان فناوری اطلاعات ایران، تاثیرگذاری در رشد اقتصادی بخش خصوصی و صنعت و همچنین کاهش هزینه ها با جلوگیری از تولید داده های تکراری و افزایش شفافیت را از مزیت های به اشتراک گذاری داده بیان کرد.
 
امیر ناظمی رییس سازمان فناوری اطلاعات ایران در سمینار بستر ملی داده های باز و کاربردی با اشاره به اسناد بالادستی هیات وزیران مصوبه سال 1395 ، گفت : سازمان فناوری اطلاعات ایران همکاری گسترده  خود با سایر دستگاه ها را با هدف فرهنگ سازی به اشتراک گذاری داده های باز و کاربردی در راستای پیشبرد اهداف دولت الکترونیک آغاز کرده است .
 
رییس سازمان فناوری اطلاعات ایران قابل دسترس بودن را از مهمترین ویژگی «داده های باز» برشمرد و تصریح کرد: امیدواریم امکانی فراهم شود که این اطلاعات با اصول و قواعد یکسان برای همه مردم از جمله دولت ها، پژوهشگاه ها، دانشگاه ها، شرکت های خصوصی  و مردم قابل استفاده باشد چرا که تولید کنندگان و ذینفعان داده باز این اقشار هستند .
 
معاون وزیر ارتباطات و فناوری اطلاعات ایجاد مشاغل جدید را از مزایای داده باز برشمرد و گفت: تاثیرگذاری در رشد اقتصادی بخش خصوصی و صنعت و همچنین کاهش هزینه ها با جلوگیری از تولید داده های تکراری و افزایش شفافیت از دیگر مزیت های به اشتراک گذاری داده است .
 
امیر ناظمی در ادامه با بیان اینکه داده باز صرفا متعلق به دولت نیست، تاکید کرد: هر شهروند می تواند آن را با دیگران به اشتراک بگذارد؛ داده باز فرآیندی مستمر است و هیچ نقطه پایانی برای آن متصور نیست و ما اکنون در ابتدای مسیر هستیم و فاصله زیادی با نقطه کمال داریم اما با عزم راسخ و همکاری و تبادل اطلاعات می توانیم به آن جایگاه مطلوب دست یابیم.
 
وی انحصار و حبس اطلاعات را آفت داده باز دانست و افزود: قدرت در اشتراک گذاشتن داده است و انحصار زدایی و شکستن قالب ذهنی از مهمترین ابزار موفقیت در تحول بنیادی و زیر بنای دولت الکترونیک و پشتیبان حقوق شهروندی است.
 
 همچنین، در حاشیه سمینار بستر ملی داده باز و کاربردی از سازمان ها و نهادهای برتر که بیشترین میزان تعامل و اشتراک داده در سامانه ملی کاتولوگ و مجموعه داده های باز و کاربردی داشته اند تقدیر بعمل آمد.

دریاچه داده چیست؟

با بیان ساده، مفهوم دریاچه داده را می‌توان اینگونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیه‌شده، بسته‌بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه‌ای است که آب از منابع مختلف ( آب باران، چشمه‌ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می‌توانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونه‌برداری! استفاده کنند.
 
به گزارش ایسنا، امروزه داده‌ها بسیار سریع در حال شکل‌گیری هستندف داده‌هایی که توسط وب‌سایت‌ها، صفحات شبکه‌های اجتماعی و غیره ایجاد می شوند. کارشناسان بر این عقیده هستند که رشد حجم بالای داده‌ها باعث شده تا مدل‌های ذخیره‌سازی و تحلیل‌های مبتنی بر رایانه‌های منفرد، پاسخ‌گوی آن‌ها نباشند. از سوی دیگر عوامل متعددی باعث شده تا مدل انبار داده سنتی به صورت جدی به چالش کشیده شود.
 
در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحی‌شده برای ذخیره مقادیر زیادی از داده‌ها در شکل بومی است. بر اساس اطلاعات سایت پلیس فتا، این داده‌ها می‌توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل‌های متنی، لاگ سیستم و بیشتر باشند.
 
این واژه توسط جیمز دیکسون،  CTO، یک شرکت نرم‌افزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گسترده‌ای از داده‌ها را می توان در آن ریخت. کاربران کسب‌وکار تماماً می‌توانند وارد دریاچه داده‌ها شوند و نوع اطلاعاتی که برای کاربرد آن‌ها نیاز دارند را دریافت کنند. این مفهوم با انفجار داده‌های ماشینی و کاهش سریع هزینه ذخیره‌سازی به محبوبیت رسید.
 
در صورتی‌که بخواهیم تفاوت‌های رویکرد دریاچه داده و انبار داده در تحلیل داده‌ها را بیان کنیم، می‌توانیم با توجه به آنچه که در برخی از سایت‌های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر به عنوان تفاوت‌های اساسی اشاره کنیم:
 
داده‌ها کاملاً در دریاچه داده قرار می‌گیرند و از هیچ داده‌ای صرف‌نظر نمی‌شود. این رویکرد برخلاف رویکرد انبار داده در ذخیره‌سازی و پالایش داده‌هاست که در آن تنها اطلاعاتی در انبار داده قرار می‌گیرد که بتواند در تحلیل‌ها مورد استفاده قرار گیرد.
 
داده‌های پایین‌ترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می‌شوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیش‌فرض‌های اساسی و اولیه ورود اطلاعات به آن محسوب می‌شود.
 
بر این اساس در مثال قبل ممکن است برای ذخیره‌سازی توضیحات یک فرد در یک مقاله یا وب‌سایت با مدل انبار داده تنها به استخراج کلید واژه‌ها از توضیحات و ذخیره‌سازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاه‌ها تولید شده است، بدون توجه به منبع و ساختار ذخیره می‌شوند.
 
این رویکرد ذخیره‌سازی داده‌ها که در آن داده، بدون توجه به ساختار و منبع ذخیره می‌شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می‌شود. این رویکردی متفاوت از ذخیره‌سازی داده‌ها در انبار داده است که در آن، ابتدا ساختاری که داده‌ها باید در آن قرار گیرد طراحی می‌شود و سپس داده ها در ساختار قرار می‌گیرند که به آن نوشتن با ساختار (Schema On Write) گفته می‌شود.  
 
نزدیک به ۸۰ درصد از استفاده‌کنندگان از اطلاعات در بیشتر سازمان‌ها، استفاده‌کنندگان عملیاتی محسوب می‌شوند. نیاز این دسته از کاربران این است که گزارش‌ها و شاخص‌های مورد نیاز خود را مشاهده کنند. این موارد معمولاً دارای ساختاری از پیش تعریف‌شده هستند و رویکرد انبار داده به دلیل ساخت‌یافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.
 
درصد کمی از کاربران سازمان‌ها نیازمند تحلیل‌های عمیق و پیچیده بر روی داده‌ها هستند. دانشمندان و تحلیل‌گران داده (Data Scientists) جزو این دسته از کاربران قرار می‌گیرند. این گروه از کاربران، از انواع داده‌های ساخت‌یافته یا ساخت‌نیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی داده‌ها مانند داده‌کاوی، متن‌کاوی، تحلیل آماری، مدل‌های پیش‌بینی‌کننده، تحلیل جریان پیمایش یک سایت و روش‌های مشابه استفاده می‌کنند.
 
اما معمولا ۱۰ درصد از کاربران یک سازمان نیاز به تجزیه و تحلیل عمیق داده‌ها پیدا می‌کنند. این دسته از کاربران می‌توانند از انبار داده برای تجزیه و تحلیل‌های مورد نیاز خود استفاده کنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به داده‌ها در سیستم‌های تولیدکننده آن مراجعه کنند.
 
با توجه به اینکه در فرآیند تحلیل‌های پیشرفته، تحلیل‌گر از قبل، درباره اینکه چه ویژگی‌ها یا داده‌هایی موردنیاز هستند و از کدام‌یک باید صرف‌نظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می‌تواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد.
 
در هر حال تفاوت‌های کلیدی بین دریاچه‌های داده و انبارهای داده وجود دارد که به طور سنتی برای تحلیل داده‌ها مورد استفاده قرار گرفته‌اند. اول، انبارهای داده برای داده‌های ساختار یافته طراحی شده‌اند. یک واقعیت اینکه دریاچه‌های داده یک طرح را به داده‌ها تحمیل نمی‌کنند. در عوض، زمانی که داده‌ها خوانده ‌شده و یا از دریاچه داده‌ها بیرون کشیده می‌شوند، طرح مورد استفاده قرار می‌گیرد. در نهایت، دریاچه‌های داده در محبوبیت با افزایش داده‌های دانشمندان، که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیل‌گران کسب و کار قبلی، رشد کرده‌اند.