دوازده ابزار پرکاربرد علوم داده برای کسانی که برنامه نویسی نمی دانند!

شاید گمان کنید برای اینکه بتوانید در حوزه علم داده گام بردارید، باید حتما به یک زبان برنامه نویسی تسلط داشته باشید! اما این مقاله ابزارهایی را به شما معرفی میکند که بدون نیاز به برنامه نویسی قادر خواهید بود تا داده های خود را تحلیل کرده و به حل مساله بپردازید.

حتما می دانید که برنامه نویسی جزو مهارت­های جدانشدنی از حوزه علم داده است. کسانی که منطق برنامه نویسی را سریع درک کنند، عموما شانس بالاتری در تبدیل شدن به یک دانشمند داده موفق دارند. پس تکلیف افرادی که هرگز برنامه ­نویسی کار نکرده اند چیست؟! آیا آنها در مسیر تبدیل شدن به یک دانشمند داده شکست می­‌خورند؟!

ابزارهای علوم داده بدون برنامه نویسی

خبر خوب این است که خیر. راه حلی برای این مسئله وجود دارد. در این مقاله ابزارهایی معرفی میشوند که کمک می­کنند تا یادگیری تحلیل داده را بدون نیاز به کدنویسی شروع کنید!! این ابزارها جایگزین کدنویسی هستند و واسط گرافیکی (GUI) کاربرپسندی دارند. طوری که هرکسی با حداقل اشنایی با الگوریتم­های تحلیلی داده، به سادگی می­تواند از آنها برای ساخت مدل­ استفاده کند. در ادامه مقاله، این ابزارها توضیح داده شده ­اند.
۱- IBM SPSS Modeler
این نرم افزار با نام Clementine به عنوان اولین نرم افزار تجاری در حوزه داده کاوی از سال ۱۹۹۴ توسط شرکت SPSS وارد بازار شد و تا سال ها به عنوان یکی از پرکاربردترین نرم افزارهای تخصصی داده کاوی در دنیا مورد استفاده بوده است. با خرید شرکت SPSS توسط غول آمریکایی IBM، نام این محصول به نام IBM SPSS Modeler تغییر یافت.

مدل توسعه و حل مسئله جریانی در قالب Stream، که به راحتی با Drop&Drag و بدون نیاز به برنامه نویسی انجام می پذیرد، شروع کننده توسعه طیف وسیعی از نرم افزارهای دیگر در این حوزه طی سالهای بعد خود بوده است و همین موضوع باعث امتیاز بالای آن در کاربرپسند بودن و سادگی در استفاده و یادگیری شده است. همچنین مشارکت شرکت SPSS به عنوان یکی از سه عضو کنسرسیوم معرفی استاندارد CRISP-DM، این نرم افزار را در زمینه مدیریت پروژه های داده کاوی در سطح بالاتری از رقبا قرار داده است.

گروه داده کاوی صدرا نیز بر اساس تجربه خود طی سالهای اخیر، نه تنها از این نرم افزار جهت سناریوسازی و ایده پردازی در مرحله حل مسئله، به عنوان نرم افزار محوری خود استفاده می نماید، بلکه مبنا و شروع مسیرهای آموزشی و پروژه ایی خود را نیز روی این نرم افزار قرار داده است.

از دیگر قابلیت های این نرم افزار می توان به توانایی خوب آن در اتصال به انواع منابع داده ها، روش های متنوع در آماده سازی داده ها، پکیج مناسبی از الگوریتم های با کیفیت آماری و یادگیری ماشین، پشتیبانی از زبانهای R و Python و همچنین یکپارچگی با ابزار IBM SPSS Statistics که کلیه تحلیل های تخصصی آماری را در خود جای داده است اشاره نمود.

۲- RapidMiner
اولین نسخه نرم‌­افزار رپیدماینر در سال ۲۰۰۶ در قالب یک نرم­‌افزار متن ­باز با نام Rapid_l منتشر شد. پس از چندسال، نام آن را به RapidMiner یا بطور خلاصه RM تغییر دادند. نسخه­ های قدیمی این نرم افزار، متن باز بودند اما از نسخه ۶ به بعد با لایسنس و یا نسخه محدود رایگان ۱۴ روزه عرضه می­شود.

رپیدماینر همه آنچه که برای ساخت مدل پیش­‌بینی لازم است را فراهم می‌­آورد. از آماده‌­سازی داده ­ها تا مدل‌سازی و سپس ارزیابی نهایی و انتشار مدل آماده استفاده. رابط کاربری این نرم افزار مانند Matlab Simulink بصورت جریانی از عملگر‌هاست. فقط کافیست تا این عملگر‌ها در جهت هدف پروژه، بدرستی به هم متصل شده و اجرا شوند. در رپیدماینر می­‌توانید طیف وسیعی از الگوریتم‌­ها را بدون نیاز به حتی یک خط کدنویسی در محیط نرم افزار اجرا کنید و خروجی بگیرید. یک ویژگی بسیار جالبی که RM دارد این است که عملگرهایی هم برای نوشتن و اجرای کدهای R و Python در آن تعبیه شده است که در خود نرم‌­افزار یکپارچه شده اند.

محصولات این نرم‌افزار عبارت ­اند از:

RapidMiner Studio: نرم افزاری که برای آماده‌­سازی، بصری سازی و مدل­سازی آماری داده ­ها به کار می­رود.
RapidMiner Server: یک نرم افزار پولی که پکیج ­های لازم برای تحلیل داده را در خودش جمع‌­آوری کرده و امکاناتی برای ساده­‌سازی کارهایی مانند تیم‌­سازی، مدیریت پروژه و توسعه مدل برای کاربران فراهم کرده است.
RapidMiner Radoop: امکانات اجرایی کردن تحلیل­ داده ­های کلان بر بستر Hadoop را فراهم کرده است.
RapidMiner Cloud: یک بسته بر مبنای Cloud است که امکان اشتراک گذاری آسان اطلاعات در بین تجهیزات دیگر را فراهم آورده است.
RM در حال حاضر در صنایع مختلف، اتوماسیون، بانکداری، بیمه، تولید، نفت و گاز، بازاریابی و زیرساخت های ارتباطاتی به عنوان ابزار تحلیل داده مورد استفاده قرار می­گیرد.

۳- DataRobot
DataRobot یا بطور خلاصه DR یک بستر برای پیاده‌­سازی مدل­های مبتنی بر یادگیری ماشین هست که خیلی کارها را خودکار کرده و توسط بهترین دانشمندان داده وبسایت kaggle شامل Jeremy Achin، Thoman Degodoy و Owen Zhang ایجاد شده است.

بر اساس ادعای DR، این ابزار مزایای زیر را دارد:

بهینه­‌سازی مدل ها: این بستر قادر است بهترین آماده‌­سازی داده­‌ها و تشخیص ویژگی­های مهم را با بکارگیری متن­کاوی، تشخیص نوع ویژگی، رمزگشایی، هم مقیاس سازی، تبدیلات و … ارائه دهد. پارامترهای پیشفرض بر اساس معیار خطا و امتیاز ارزیابی بطور خودکار تعیین می­شوند.
پردازش­های موازی: با بهره بری از سرورهای قدرتمند، محاسبات بر روی بیش از ۱۰۰۰ سرور چندهسته‌ای صورت می­گیرد و در آن از الگوریتم‌­های توزیع­ شده برای کار با داده‌­های بزرگ استفاده شده است.
امکان توسعه: فراهم ­سازی امکانات توسعه آسان فقط با چند کلیک و بدون نیاز به کد نویسی، مناسب برای مهندسان نرم افزار، دارای کیت­های ساخت نرم افزارهای مبتنی بر Python و محیط برنامه­‌نویسی کاربردی موجود برای یکپارچه‌­سازی مدل­ها در ابزارها و نرم‌­افزارها.
۴- BigML
این ابزار هم بستر مدل­سازی بر مبنای یادگیری ماشین دیگری است که رابط کاربری خوبی دارد و مدعی داشتن ویژگی­های زیر است:

Sources: بکارگیری انواع منابع مختلف اطلاعاتی
Datasets: استفاده از منابع تعریف شده برای ساخت یک دیتاست
Models: ساخت مدل های پیش بینانه
Predictions: پیش­بینی بر اساس مدل
Ensembles: توانایی ترکیب مدل­های مختلف
Evaluation: ارزیابی مدل ها
هرکدام از این کارها به ترتیب و پشت سر هم انجام می­شوند. BigML نمودارهای گرافیکی جذابی از نتایج ارائه می دهد و از الگوریتم­های متنوعی برای حل مسائل طبقه‌­بندی، رگرسیون، خوشه­‌بندی، تشخیص انحرافات و کشف قوانین انجمنی استفاده می کند.

۵- Google Cloud Prediction API
این ابزار یک API از نوع RESTful است که برای ساخت مدل­های مبتنی بر یادگیری ماشین در گوشی­‌های اندروید مورد استفاده قرار می­گیرد. برخی از کاربردهای این API عبارتند از:

ارائه سیستم توصیه گر: این سیستم بر اساس عادات گذشته کاربران، پیش­بینی می­کند که چه فیلم­ها یا محصولات دیگری را ممکن است یک کاربر بپسندد.
تشخیص spam: سیستمی که ایمیل­ها را به spam و غیر spam طبقه­ بندی می­کند.
تحلیل نظرات: تحلیل کامنت های پست شده در باره خدمات یا محصول، برای تعیین اینکه ایا افراد نظر مثبت داشتند به محصول/سرویس یا خیر.
پیش­بینی میزان خرید: تخمین اینکه بر اساس تاریخچه مقدار هزینه کردن کاربران، چه میزان یک کاربر ممکن است در روز هزینه خرید کند.
به همراه این API، کتابخانه هایی از زبان­های مختلف مانند Python ، Go ، Java، JavaScript، .net، NodeJS، Obj_C، PHP و Ruby برای بالابردن عملکرد و امنیت API بر روی گوشی قابل نصب است.

۶- Paxata
یکی از معدود شرکت هایی هست که فقط بر روی پاکسازی و آماده­‌سازی داده ­ها بعنوان یکی از وظایف مهم در استاندارد پیاده سازی داده­‌کاوی تمرکز کرده است و وارد مباحث یادگیری ماشین و مدل­سازی آماری نشده است. این ابزار مانند اکسل حالت صفحه گستره داشته و کاربری ساده­‌ای دارد. دستورالعمل گرافیکی ساده برای جمع‌­آوری داده‌­ها، پیداکردن و پاکسازی داده‌­های کثیف یا گمشده و به اشتراک‌­گذاری و قابلیت استفاده مشترک داده‌­ها توسط تیم، در این نرم‌افزار فراهم شده است.

بستر Paxata کارهای زیر را بطور متوالی انجام می­دهد:

اضافه کردن داده ­ها : این بستر منابع زیادی برای جمع‌­آوری داده‌­ها دارد.
کاوش : با استفاده از ابزارهای گرافیکی قدرتمند امکان کشف ایرادات داده‌­ها را برای کاربران فراهم آورده است.
پاکسازی و تغییر : پاکسازی داده‌­ها از طریق جایگذاری مقادیر گمشده، نرمال­سازی مقادیر مشابه با استفاده از NLP، تشخیص موارد تکراری.
ساخت داده مورد نیاز : ساخت pivot بر روی داده‌­ها، گروه ­بندی و تجمیع داده­‌ها
اشتراک گذاری و مدیریت داده­ ها : امکان به اشتراک گذاری و مدیریت داده‌­­ها با توجه به دسترسی­هایی که برای کاربران تعیین می­شود.
ترکیب داده­ ها : تکنولوژی به نام SmartFusion این امکان را برای کاربران فراهم آورده است که تنها با یک کلیک بهترین ترکیب داده‌­ها را به یک AnswerSet یکتا فراهم آورد.
ابزارهای هوش تجاری :در این ابزار، با بکارگیری AnswerSet در مرحه قبل، قابلیت تبدیل داده ها به نمودارهای گرافیکی ارزشمند بوسیله ابزارهای BI مرسوم بوجود می­‌آید. همچنین امکان رفت و برگشت دائم بین مراحل پیش­‌پردازش و مصورسازی به آسانی امکان­پذیر است.
۷-Trifacta
این شرکت نیز بر آماده‌سازی داده­‌ها تمرکز کرده و برای این هدف ۲ محصول ارائه داده است:

Wrangler : نسخه رایگان نرم­‌افزار
Wrangler Enterprise : نسخه کامل و لایسنس دار نرم­‌افزار
Trifacta یک واسطه گرافیکی کاملا ادراکی برای پاکسازی داده‌­ها ارائه داده است. این واسط داده‌­ها را بعنوان ورودی گرفته و خلاصه ای از داده‌­ها به همراه شاخص‌­های آماری متنوع برای هر ستون ارائه می­دهد. همچنین بطور خودکار برخی تبدیلات را برای هر یک از ستون­های دیتاست ارائه می­دهد که تنها با یک کلیک قابل انجام است. تبدیلات متنوع بر روی داده‌­ها، با استفاده از برخی توابع از پیش­ تعریف ­شده، بر روی واسط گرافیکی به آسانی قابل اجرا شدن است.

Trifacta همانند ابزار قبلی نیز مراحل زیر را برای آماده‌­سازی داده‌­ها انجام می­دهد:

کشف دانش:این بخش برای بررسی اولیه داده­‌ها و بررسی توزیع آن­ها برای حس گرفتن از داده‌­هاست.
ساختار داده‌­ها: این بخش نیز بیشتر برای بررسی مشخصات اولیه داده­‌ها یعنی فرمت و نوع داده و تشخیص ناهنجاری ­هاست.
پاکسازی داده­‌ها: این بخش شامل فرایندهایی مانند جایگذاری مقادیر گمشده، استانداردسازی متون و غیره می­باشد که برای آماده کردن داده‌­ها جهت مدل­سازی لازم است.
غنی­‌سازی داده­‌ها: این بخش با اضافه ­کردن داده از منابع اطلاعاتی دیگر و پیاده‌­سازی برخی کارهای مهندسی بر روی فیلد داده­‌ها، به بهبود تحلیل داده ها کمک می کند.
ارزیابی داده­‌ها: این بخش برای بررسی نهایی داده­‌ها به کار می رود.
ارائه داده‌­ها: در این بخش داده­‌های آماده‌­سازی شده برای کاربرد های بعدی منتشر می­‌شود.
۸- Narrative Science
این ابزار هم صرفا ساخت خودکار گزارشاتی با استفاده از داده‌­ها را انجام می­دهد. درواقع این ابزار برای داستان‌­سُرایی درمورد داده‌­ها ایجاد شده و از الگوریتم پردازش زبان (NLP) برای این کار استفاده می­ کند.

برخی ویژگی­های این ابزار عبارت است از:

ارائه‌ی آرشیوی از داده‌­ها برای آمار و اطلاعات گذشته درباره سازمان
ساخت گزارش­‌های هدف­دار برای افراد خاص
این ابزار هم اکنون در سازمان­های مالی، بیمه‌­ها، دولت و بازاریابی اینترنتی مورد استفاده قرار می‌گیرد. برخی از مشتریان آن را می­‌توان American Century Investments، PayScale، MasterCard، Deloitte و .. نام برد.

۹- MLBase
یک پروژه متن‌­باز توسعه ­داده شده توسط آزمایشگاه AMP که در دانشگاه برکلی کالیفرنیا شروع به کار کرد. هدف اصلی این پروژه، ایجاد یک بستر برای پیاده‌­سازی آسان یادگیری ماشین بر روی مسائل با مقیاس بزرگ است.

پروژه MLBase سه محصول دارد:

Mlib: این محصول همانند هسته کتابخانه توزیع شده ML در Apache Spark عمل می­کند. این محصول به عنوان یک بخشی از پروژه MLBase در ابتدا شروع به توسعه پیدا کرد اما هم اکنون جامعه Spark پشتیبان آن است.
MLI: یک API برای استخراج ویژگی­های مهم و توسعه الگوریتم­ ها می­باشد که با زبان­های سطح بالای برنامه‌­نویسی ایجاد شده است.
ML Optimizer: این لایه ساختاری جریانی برای کارهای یادگیری ماشین می­باشد. Optimizer برای استخراج ویژگی­ها و الگوریتم­های یادگیری ماشین در لایه­‌های MLI و Mllib بکار می رود.
البته این پروژه مانند بسیاری از پروژه­ های دیگر درحال توسعه است و در آینده نزدیک بسیار پیشرفت خواهد کرد.

۱۰- WEKA
نرم‌­افزار داد­ه‌­کاوی Weka با زبان جاوا نوشته شده است و در گروه یادگیری ماشین دانشگاه وایکاتو در نیوزلند توسعه داده شده است. این نرم افزار هم متن‌باز بوده و ابزار بسیارخوبی برای تازه ­‌واردان در حوزه علم داده می‌­باشد.

این نرم‌­افزار هنوز هم در بسیاری از آکادمی‌­های علم داده بکار گرفته می‌­شود.

۱۱- Microsoft Azure ML Studio
جایی که نام بازیگران بزرگ در آن مطرح است، چطور ممکن است که مایکروسافت در آنجا حضور نداشته باشد؟! پلتفرم Azure (اَژور) یک پلتفرم یادگیری ماشین تحت وب قدرتمند و درعین حال ساده از شرکت مایکروسافت است. این پلتفرم دارای یک محیط دراپ اند درگ است که کار کردن با آن نیازی به کدنویسی ندارد. طراحان مایکروسافت در محیط اژور، پروژه های آماده‌ی جامع و مثال های ساده ای را برای تازه کاران قرار دادند تا به سرعت یاد گرفته و بتوانند با آن کار کنند.

در Azure شما می توانید ۵ گام ساده زیر را بکار بگیرید:

وارد کردن مجموعه داده
انجام فرایند پاکسازی و پیش پردازش داده ها
تقسیم داده ها به دو بخش داده های آموزش و داده های تست
بکارگیری الگوریتم های یادگیری ماشین قرار گرفته در اژور برای آموزش داده ها
ارزیابی مدل نهایی و انجام پیش بینی
۱۲- Automatic Statistican
این یک محصول نیست بلکه یک موسسه تحقیقاتی هست که در حال ساخت ابزاری برای کاوش و تحلیل داده‌­ها می‌­باشد. این ابزار قرار است انواع مختلف داده را پشتیبانی کند و از NLP برای ساخت گزارشات تحلیلی با جزئیات استفاده ­کند. این ابزار توسط محققینی که در موسسات تحقیق MIT و Cambridge کار می­‌کنند، در حال توسعه است. کمپانی بزرگ google حامی این ابزار بوده و بدلیل اینکه هنوز در حال توسعه می­‌باشد، اطلاعات خیلی کمی درباره آن موجود است.

منبع: پایگاه Analytics Vidhya
ترجمه متن: داوُد دوروش

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد.


*