علم داده‌ها-داده کاوی-Data Mining- Data Science

علم داده‌ها-داده کاوی-Data Mining- Data Science

علم داده‌ها-داده کاوی-Data Mining- Data Science
علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.[۱] علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.[۲] متخصص علم داده
به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر[۳] ابداع شده‌است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است.[۴] چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.[۵] یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.[۶] متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
توانایی استخراج و تفسیر منابع داده
مدیریت حجم زیاد اطلاعات با سخت‌افزار
محدودیت‌های نرم‌افزاری و پهنای باند
ادغام منابع داده با یک دیگر
تضمین پایداری مجموعه‌های داده
مصورسازی داده برای فهم آن
ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه بندی
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام
منشأ پیدایش
عبارت علم داده بیش از یک دهه است که موجودیت دارد.[۷] ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کرده‌است. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیم‌گیری در میادین جنگی استفاده می‌کرده‌است. این مدلها را ریاضیدانان تهیه می‌کردند.
علم داده در ایران
اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شده‌است.[۸] دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو می‌پذیرد. [۱] ابزارهای متن باز علم داده
آر (زبان برنامه‌نویسی)
پایتون (زبان برنامه‌نویسی)
وکا (یادگیری ماشینی)
جاوا (زبان برنامه‌نویسی)
گنو آکتیو
جولیا
ابزارهای تجاری علم داده
راپید ماینر
نایم
اس‌پی‌اس‌اس مادلر
متلب
Dhar, Vasant. , Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, December 2013, Pages 64-73
کتاب علم داده مفاهیم و مهارت‌ها – تألیف دکتر بابک سهرابی و حمیده ایرج – انتشارات جهاد دانشگاهی
“Tim O’Reilly: The World’s 7 Most Powerful Data Scientists”. Forbes. Retrieved 11 March 2013.
“Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century”. National Science Foundation.
“Big Careers in Big Data”. Villanova University.
مهسا المعی نژاد. «چند سال طول می‌کشد تا یک نوآموز به یک دانشمند داده تبدیل شود؟». گروه داده کاوی ایران. بازبینی‌شده در 26 فبریه 2014.
William S. Cleveland. Shanti S. Gupta Professor of Statistics. Courtesy Professor of Computer Science. Department of Statistics. Purdue University
Iraj, H., & Sohrabi, B. (2017). Data scientists’ skills in detecting archetypes in Iran. International Journal on Informatics Visualization, 1(2), 27-32.
 

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *