ترندهای آنالیز داده های حجیم ! تا به حال با آنها آشنا شدهاید؟ در این مقاله قصد داریم 7 مورد از این ترندها را به شما معرفی کنیم. یک معاون مهندسی داده در یک شرکت صاحب نام، جفت پا در دریاچه داده پرید. دین ابوت، دانشمند ارشد داده، خط تولید ابر را ایجاد کرد. هر دو این دانشمندان میگویند: لبه پیشرو دادههای بزرگ و تجزیه و تحلیل پیش بینی کننده که شامل دریاچههای داده برای نگهداری انبوه دادهها در قالب اصلی و البته محاسبات ابری است، یک هدف متحرک است. اگر چه گزینههای فناوری از حد بالایی برخوردار نیستند اما انتظار به سادگی یک گزینه نیست. در اصل دانشمند ارشد داده در خصوص ترندهای آنالیز بیگ دیتا میگوید: واقعیت این است که این ابزارها هنوز در حال ظهور هستند و وعده پلتفرم در حدی نیست که لازم باشد که تجارت و بیزنس به آن اعتماد کند. اما رشتههای دادههای بزرگ و تجزیه و تحلیل به سرعت در حال پیشرفت هستند به طوری که مشاغل باید وارد عمل شوند یا ریسک عقب ماندن را به جان بخرند. وی در ادامه اضافه میکند که در گذشته بالغ شدن فناوریهای نوظهور سالها به طول میانجامید. اما اکنون افراد در عرض چند روز یا چند هفته تکرار میکنند و راه حلهای خود را هدایت میکنند. بنابراین بهترین فناوریها و روندهای در حال ظهور که باید در لیست تماشای شما یا در آزمایشگاه ازمایش شما باشد، کدام است؟ در این بخش ما لیستی از روندهای آنالیز داده های حجیم را برای شما آوردهایم. در ادامه با ما باشید.
تجزیه و تحلیل دادههای بزرگ در ابر
یک چارچوب و مجموعهای از ابزارها برای پردازش مجموعه دادههای بسیار بزرگ، در ابتدا برای کار روی ماشینهای فیزیکی طراحی شده است. برایان هاپکینز، تحلیلگر تحقیقات فورستر، میگوید: اکنون تعداد بیشتری از فناوریها برای پردازش دادهها در ابر موجود است. به عنوان مثال میتوان به انبار داده BI آمازون، سرویس تجزیه و تحلیل دادههای گوگل، پلتفرم ابری و سرویس پردازش داده آمازون اشاره کرد. وی در ادامه میگوید وضعیت آینده دادههای بزرگ، ترکیبی از فضای داخلی و ابری خواهد بود. این اولین مورد از لیست ما از ترندهای آنالیز داده های حجیم است. ارائه دهنده خدمات تجزیه و تحلیل، تقسیم بندی و بازاریابی خرده فروشی مستقر در SaaS، اخیراً از زیرساخت پایگاه داده داخلی Hadoop و MongoDB به Amazon Redshift، انبار داده مبتنی بر ابر منتقل شده است. این شرکت در اصل مستقر در ایندیاناپلیس خرده فروشی میکند و اطلاعات دموگرافیک مشتری و همچنین دادههای رفتاری در زمان واقعی را جمع آوری میکند و سپس تجزیه و تحلیل این اطلاعات را برای کمک به خرده فروشان برای ایجاد پیامهای هدفمند انجام میدهد تا پاسخ دلخواه خریداران را به دست اورد. در ادامه لیست روندهای آنالیز داده های حجیم با ما همراه باشید.
Hadoop سیستم عامل دادههای جدید سازمانی
هاپکینز میگوید چارچوبهای تحلیلی توزیع شده در حال تبدیل شدن به مدیران منابع توزیع شده هستند که به تدریج Hadoop را به یک سیستم عامل داده با اهداف عمومی تبدیل میکنند. با این سیستمها او میگوید شما میتوانید با اتصال به Hadoop به عنوان سیستم ذخیره سازی پرونده توزیع شده، دستکاری و دادههای مختلف را انجام دهید. هاپکینز در ادامه در مورد این مورد از ترندهای آنالیز داده های حجیم اضافه میکند که این مسئله برای بنگاه اقتصادی به چه معنا است؟ از آنجا که حافظه و پردازش جریان، تجزیه و تحلیل نمودار و انواع دیگر بارهای کاری قادر به اجرای با عملکرد کافی در هادوپ هستند، مشاغل بیشتری از هادوپ به عنوان مراکز داده سازمانی استفاده میکنند. توانایی اجرای انواع مختلفی از عملیات دادهها در برابر دادهها در هادوپ، آن را به مکانی کم هزینه و با هدفی عمومی برای قرار دادن دادههایی تبدیل میکند که میخواهید قادر به تجزیه و تحلیل آنها باشید. در ادامه این لیست از ترندهای آنالیز بیگ دیتا با ما باشید.
دریاچههای بزرگ داده
تئوری پایگاه داده سنتی حکم میکند قبل از وارد کردن هر داده، مجموعه داده را طراحی کنید. کریس کوران مدیر ارشد فناوری و مشاور ارشد مشاوره آمریکا میگوید که یک دریاچه داده که به آن دادههای سازمانی یا هاب نیز میگویند؛ این مدل را روی سر خود میچرخاند. او میگوید ما این منابع داده را میگیریم و همه را به یک مخزن بزرگ هادوپ میریزیم و همچنین از قبل سعی نمیکنیم که یک مدل داده را طراحی کنیم. در عوض ابزاری را برای تجزیه و تحلیل دادهها همراه با تعریف سطح بالایی از دادههای موجود در دریاچه برای افراد فراهم میکند. افراد در ادامه بینشی را در دادهها ایجاد میکنند. این مورد از ترندهای آنالیز داده های حجیم در اصل یک مدل ارگانیک بسیار افزایشی برای ایجاد یک پایگاه داده در مقیاس بزرگ است. اما جنبهی منفی این مورد از روندهای آنالیز داده های حجیم این است که افرادی که از آن استفاده میکنند باید مهارت بالایی داشته باشند.
تجزیه و تحلیل پیش بینی
هاپکینز میگوید با دادههای بزرگ، تحلیلگران نه تنها دادههای بیشتری برای کار دارند، بلکه دارای قدرت پردازش برای مدیریت تعداد زیادی رکورد با بسیاری از ویژگیها هستند. یادگیری ماشین سنتی از تجزیه و تحلیل آماری بر اساس نمونهای از مجموعه داده کل استفاده میکند. او میگوید شما اکنون توانایی انجام تعداد بسیار زیادی رکورد و تعداد بسیار زیادی ویژگی در هر رکورد را دارید. این مسئله باعث افزایش قابلیت پیش بینی میشود. این مورد از ترندهای آنالیز داده های حجیم در اصل میگوید که تجزیه و تحلیل پیش بینی بیشتر است. ترکیبی از دادههای بزرگ و قدرت محاسبه همچنین به تحلیلگران اجازه میدهد تا دادههای رفتاری جدید را در طول روز مانند وب سایتهای بازدید شده یا مکان بررسی کنند. هاپکینز در حقیقت ان را دادههای پراکنده مینامد زیرا برای یافتن مورد، مورد علاقه خود باید دادههای زیادی را که مهم نیستند جستجو کنید. تلاش برای استفاده از الگوریتمهای سنتی یادگیری ماشین در برابر این نوع دادهها از نظر محاسباتی غیر ممکن بود. اما اکنون ما میتوانیم قدرت محاسباتی ارزان را به پرده تصویر بکشانیم. لیست روندهای آنالیز داده های حجیم به پایان نرسیده است. با ما باشید.
SQL در Hadoop سریعتر و بهتر
اگر یک رمز گذار و ریاضیدان هوشمند هستید، میتوانید دادهها را رها کنید و در مورد هر چیزی در هادوپ تجزیه و تحلیل کنید. تحلیلگر گارتنر میگوید من به شخصی احتیاج دارم که آن را در قالب و ساختار زبانی که با آن آشنا هستم، قرار دهد. این دقیقاً همان جایی است که SQL برای محصولات هادوپ وجود دارد. اگر چه هر زبان آشنایی میتواند کارساز باشد. ابزارهایی که از پرس و جوهای مشابه SQL پشتیبانی میکنند به کاربران تجاری که قبلاً SQL را فهمیدهاند، اجازه میدهند تا تکنیکهای مشابه را برای دادهها، اعمال کنند. هاپکینز میگوید SQL در Hadoop در شرکت را به روی Hadoop باز میکند، زیرا مشاغل نیازی به سرمایه گذاری در دانشمندان سطح بالای داده و تحلیل گران تجارت ندارند که میتوانند با استفاده از Java JavaScript و Python اسکریپت بنویسند – در اصل چیزی است که کاربران هادوپ به طور سنتی به انجام آن نیاز دارند. این مورد یکی از کاربردیترین ترندهای آنالیز داده های حجیم است. در ادامه مبحث روندهای آنالیز داده های حجیم با ما باشید.
No SQL بیشتر بهتر!
کارن میگوید گزینههای جایگزین پایگاههای ارتباطی سنتی مبتنی بر SQL، پایگاه دادههای No SQL به عنوان ابزاری برای استفاده در انواع خاصی از برنامههای تحلیلی، به سرعت محبوبیت بیشتری پیدا میکنند. وی تخمین میزند که 15 تا 20 پایگاه داده منبع باز No SQL وجود دارد که هر کدام تخصص خاص خود را دارند. به عنوان مثال یک محصول No SQL با قابلیت پایگاه داده گراف، روشی سریعتر و مستقیمتر برای تحلیل شبکه روابط بین مشتریان یا فروشندگان نسبت به یک پایگاه داده رابطهای ارائه میدهد. این مورد از ترندهای آنالیز داده های حجیم به نسبت جدید است که شاید با آن تا به حال آشنایی نداشتهاید. کم کم به انتهای این لیست از ترندهای آنالیز بیگ دیتا نزدیک میشویم. با ما باشید.
یادگیری عمیق
این مورد آخرین مورد از ترندهای آنالیز داده های حجیم است. هاپکینز میگوید یادگیری عمیق، مجموعهای از تکنیکهای یادگیری ماشین مبتنی بر شبکه عصبی هنوز در حال پیشرفت است اما پتانسیل زیادی برای حل مشکلات تجاری از خود نشان میدهد. یادگیری عمیق در اصل کامپیوترها را قادر میسازد تا موارد مورد علاقه را در مقدار زیادی داده بدون ساختار و باینری تشخیص دهند و بدون نیاز به مدلهای خاص یا دستورالعملهای برنامه نویسی، روابط را استنباط کنند. در یک مثال، یک الگوریتم یادگیری عمیق که دادههای ویکی پدیا را بررسی میکند به خودی خود آموخته است که کالیفرنیا و تگزاس هر دو در ایالت متحده هستند. برای درک مفهوم ایالت و کشور لازم نیست که مدل سازی شود و این جا دقیقاً تفاوت بزرگ بین یادگیری ماشین قدیمی و روشهای یادگیری عمیق نوظهور هاپکینز است. هاپکینز میگوید دادههای بزرگ با استفاده از تکنیکهای پیشرفته تحلیلی مانند یادگیری عمیق و کمک به روشهایی که ما فقط در حال فهمیدن آنها هستیم، متنهای متنوع و بدون ساختار بسیاری از کارها را انجام میدهد. به عنوان مثال، میتواند برای شناسایی انواع مختلف دادهها، مانند اشکال، رنگ ها و اشیا موجود در یک فیلم – یا حتی وجود یک گربه در تصاویر استفاده شود، همانطور که یک شبکه عصبی ساخته شده توسط گوگل در سال 2012 ساخته شده است. در این مقاله سعی کردیم به ترندهای آنالیز بیگ دیتا بپردازیم. امیدواریم برای شما مفید بوده باشد.