پاکسازی داده ها چیست؟ + راهنمای کامل برای آن

پاکسازی داده ها مرحله مهمی است که نباید ساده از آن بگذرید. گام پس از جمع آوری داده‌‌ها، پاک‌‌سازی داده ها است. اینکه مطمئن باشیم دیتاست ما عاری از هر گونه اشتباه و داده ی ناقص است حائز اهمیت است. به فرایند تشخیص و اصلاح و حذف داده ها و رکوردهای خراب در مجموعه ایی از داده ها، جداول و دیتابیس ها گفته می شود. این فرآیند را می توان به صورت دستی یا اتوماتیک انجام داد. و  شامل تشخیص داده های نامربوط، نادرست، ناقص و جایگزینی و یا اصلاح و  یا حذف داده های کثیف اطلاق می‌‌شود.

بعد از انجام عمیات پاکسازی داده ها ، دیتاست باید با سایر دیتاست های داخل سیستم سازگار باشد. و این داده های خراب می تواند از طریق کاربر، زمان انتقال داده ها و یا در هنگام ذخیره سازی بوجود آید. اهمیت این بحث، از آن جهت است که وجود این داده های خراب باعث نتیجه گیری اشتباه در مورد داده ها و الگوهای موجود در آن می شود.

همانطور که می دانید، دانشمندهای داده بین 50 تا 80 درصد وقت خود را صرف پاک سازی و اصلاح داده ها می نمایند و 20 درصد آن را به آنالیز آن داده ها می پردازند.

برای تحقق این امر، ابزارها و متدهای زیادی وجود دارد. و اصولا به دو طریق که یکی از طریق اجرای اسکریپت و دیگری استفاده از ابزار است می‌‌توان پاک سازی داده را انجام داد. متاسفانه در دوره های یادگیری ماشین و آنالیز داده ها کمتر به این موضوع پرداخته می شود ولی همانطور که اشاره شد بخش خیلی مهمی در فرایند آنالیز داده ها می باشد.

با گسترش روزافزون تکنولوژی در زندگی، داده های تولید شده روز به روز افزایش می یابد و پیدا کردن داده های خراب و اصلاح آنها سخت تر می گردد. زیرا با کلان داده مواجه هستیم.

ابزارهای پاکسازی داده:

JASP – Rattle – Rapid Miner – Orange – Talend data preparation – Trifacta wrangler

مراحل پاکسازی داده را به چند بخش زیر باید تقسیم نمود: جمع آوری داده، پاک سازی داده، آنالیز و مدل سازی داده، انتشار نتیجه به مخاطبین.

چندین دلیل وجود دارد که اهمیت پاک سازی داده ها را ثابت می کند که در ادامه به آن‌‌ها اشاره شده است:

فرایند آنالیز داده ها را سرعت می بخشد.

از خطا های احتمالی زمان آنالیز داده ها جلوگیری می کند. به این صورت که اگر داده ها پاک سازی نشده باشد به نتیجه غلطی می رسیم و مجبور می شویم مجددا آنالیز را انجام دهیم که این باعث اتلاف وقت می گردد.

مراحل پاک سازی داده که سرعت شما را بالا می برد:

قوانین داده ها را استاندارد سازی کنید.

اعتبارسنجی فرایند ها باعث کاهش هزینه پردازش داده ها و خطای انسانی می شود.

داده های تکراری حذف گردد. زیرا یکپارچگی داده های استخراج شده از منابع مختلف را کم می کند و فضای ذخیره سازی و زمان زیادی را می برد.

سلامت داده ها می بایست چک شود و باید خودکارسازی شود.

بهترین روش ها برای ساخت فرایند پاک سازی داده ها:

مانیتور کردن خطاهاست، با این روش محل ایجاد خطا در داده ها شناسایی می شود و می توان جلوی آن را گرفت.

استانداردسازی فرایند، بسیار با اهمیت است و از این طریق می توان مطمئن شد که نقطه ورودی داده ها مشکل ساز نمی باشد.

صحت سنجی داده ها، بعد از اولین پاک سازی دیتاست، می بایست داده های پاک سازی شده صحت سنجی شوند تا از درست بودن آن داده ها اطمینان حاصل شود.

حذف داده های تکراری، می توان از ابزارهای موجود جهت انجام این فرایند استفاده نمود.

انجام آنالیز داده ها

ارتباط با تیم، جهت بروزرسانی فرایند پاک سازی داده ها

تکنیک های پاک سازی داده با نرم افزار اکسل:

فاصله های زائد در داده‌‌ها:

همان‌‌طور که در تصویر مشخص است، اگر داده‌‌های درون دیتاست دارای فاصله‌‌های زائد بود با استفاده از تابع =Trim(CellNo) در اکسل می‌‌توان آن‌‌ها را حذف نمود. (CellNo شماره سلولی از اکسل است که داده‌‌ی نادرست در آن قرار دارد. به طور مثال در تصویر زیر داده‌‌ی نادرست در B1 قرار دارد که همان ستون B و سطر 1  می‌‌باشد)

 

محتویات Blank در داده‌‌ها:

احتمال دارد با دیتاستی برخورد نمایید که دارای داده‌‌های زیادی باشد، با استفاده از تکنیکی که در ادامه گفته می‌‌شود می‌‌توانید به راحتی آن‌‌ها را در انبوه داده‌‌ها شناسایی نمایید. برای این‌‌کار ابتدا مطابق شکل زیر داده‌‌ها را انتخاب نموده و از منوی مشخص شده گزینه‌‌ی Go To Special را انتخاب نمایید.

 

سپس در پنجره‌‌ی باز شده گزینه Blanks را انتخاب نمایید. و بلافاصله متنی را که می‌‌خواهید در جای خالی نمایان شود را تایپ می‌‌نمایید. به طور مثال در اینجا کلمه‌‌ی “خالی” تایپ شده است. سپس دکمه‌‌ی Ctrl+Enter را فشار دهید تا تمامی سلول‌‌ها با این مقدار پر شود. خروجی به صورت زیر می‌‌گردد.

 

محتویات عددی که به صورت رشته ذخیره شده‌‌اند:

اگر درون سلول‌‌های اکسل محتویاتی مثل ‘456 قرار داشت که ترکیبی از عدد و تک کوتیشن است، با ضرب محتویات آن سلول با عدد 1 محتویات آن به عدد تبدیل می شود. به این صورت اعدادی که به اشتباه به صورت رشته ذخیره شده‌‌اند، اصلاح می‌‌گردند.

داده‌‌های تکراری:

در صورتی‌‌که داده‌‌های تکراری از دیتاست حذف نگردد، باعث می‌‌شود آنالیز داده‌‌های مان با مشکل مواجه شود. یکی از روش های حذف داده‌‌ی تکراری در یک یا چند ستون، انتخاب آن ستون‌‌ها است و در نهایت در منوی بالای نرم‌‌افزار اکسل منوی Data بر روی گزینه Remove Duplicates کلیک می‌‌نمایید تا داده‌‌های تکراری حذف شود. در تصویر زیر مراحل کار مشخص شده است:

 

رشته‌‌ها با حروف بزرگ و کوچک:

این تغییر شامل حال رشته‌‌ها به زبان فارسی نمی‌‌گردد ولی زمانی‌‌که با متون انگلیسی در ارتباط باشید، این تغییر کاربردی خواهد بود. برای این‌‌کار به سراغ سلول مورد نظر رفته و از تابع =LOWER(CellNo) یا =UPPER(CellNo) و یا =PROPER(CellNo) استفاده می‌‌نمایید. (در توابع بالا CellNo همان شماره سلولی است که داده رشته‌‌ای در آن قرار دارد.)

داده با املا نادرست:

در صورتی‌‌که داده‌‌های انگلیسی دارای غلط املایی بود، می‌‌توانید مطابق شکل زیر بر روی سلول مورد نظر کلیک کرده و سپس دکمه F7 را کلیک نمایید و مطابق تصویر زیر پنجره Spelling باز می شود و لغت صحیح را پیشنهاد می‌‌کند.

در این مطلب به صورت مختصر با نحوه‌‌ی پاکسازی داده ها آشنا شدیم.

 

نگارگران افق روشن

مطالب اخیر

چگونه فونت نوشته های فارسی در فایل CSV را در اکسل درست نمایش دهیم؟

اگر شما هم به مشکل بهم ریختگی فونت های فارسی در فایل CSV برخوردید، این…

۱ مرداد ۱۴۰۱

کارشناس پایگاه داده کیست؟ آشنایی با این موقعیت شغلی

کارشناس پایگاه داده (Data Base Administrator یا DBA) با استفاده از نرم افزار به سازماندهی…

۲۵ آذر ۱۴۰۰

دریاچه داده چیست؟ بررسی تفاوت های آن

دریاچه داده چیست؟ داده‌ها نقش زیادی در دنیای امروز دارند و کسب‌وکارها ناگزیر هستند تا…

۲۲ آذر ۱۴۰۰

تبدیل داده به اطلاعات چگونه امکان پذیر است؟

تبدیل داده به اطلاعات چگونه ممکن است؟ هوش تجاری یا همان Business Intelligence به سازمان‌ها…

۱۹ آذر ۱۴۰۰

تحلیل داده با هوش تجاری چه دلایلی دارد؟

تحلیل داده با هوش تجاری چگونه است؟ داده‌های دیجیتالی، با توجه به ماهیت خود، تصویری…

۱۳ آذر ۱۴۰۰

NLP چیست و بررسی کاربرد آن

  شاید خیلی از افرادی که نام ان ال پی (NLP) را شنیده‌اند، تعریف مشخصی…

۱۰ آذر ۱۴۰۰