Data Scientist — це спеціаліст, який займається обробкою та аналізом великих масивів даних, відомих зараз як big data. Щоб знайти в даних нові зв'язки, закономірності та побудувати прогнозну модель, яку згодом застосувати для розв'язання задач бізнесу, використовують машинне навчання.
Сфера data science підходить людям з добре розвиненими математичними здібностями.
Професія Data Scientist з’явилася на початку 2010 року, хоча перша згадка про цей термін була ще в 70-х роках. Data science використовують не лише в науці, а й у сферах економіки, екології, медицини, фінансів і промисловості.
Data Scientist працює як із сортованими, так і з несортованими даними. Тобто його задача — опрацювати ці попередні дані й підготувати для подальшого аналізу. На жаль, інформація в big data не структурована або погано структурована, це значно ускладнює опрацювання даних. Для цього використовують так звані data preparation — методи машинного навчання. Одне із завдань data science спеціаліста — проаналізувати великі обсяги даних та зробити потрібні бізнесу прогнози. Метод залежить від конкретної задачі та галузі. Результатом роботи Data Scientist є робочий алгоритм, який знаходить розв'язання поставленої задачі.
Зрештою, бізнес може ухвалювати виважені й ефективні рішення завдяки роботі Data Scientist.
Основні задачі спеціаліста: розробити гіпотезу, спрогнозувати певне явище, а потім підібрати та створити аналітичну модель, яка дозволить перевірити цю гіпотезу та реалізувати бізнес-мету. Щоб покращити результат діяльності організації, дані збирають, попередньо обробляють, аналізують, візуалізують і зберігають. Компанії, які ґрунтують своє рішення на результатах роботи з даними, називають data-driven.
Важливим етапом є інтерпретація даних. Тут стає в пригоді математика, статистика й математичне моделювання. Data science охоплює широкі масштаби завдань та галузей, тож дата саєнтисти можуть виконувати роботу аналітиків, але не навпаки.
У дата саєнтиста більше відповідальності. Це універсальна професія, яка поєднує в собі аналітику та програмування. Він має діставати необхідну інформацію з різноманітних джерел, здійснювати статистичний аналіз для ухвалення бізнес рішень і встановлення цих прихованих закономірностей у масивах даних.
Для створення алгоритмів існує доволі багато бібліотек. Важливо знати доступні інструменти, тому що в сучасних мовах програмування багато вже зроблено за нас і більшість моделей не потрібно програмувати з нуля, але дуже важливо розуміти принципи роботи моделі.
Окрім прокачаних hard skills, важливо вміти комунікувати з людьми.
У роботі спершу треба з'ясувати, що потрібно замовнику або, якщо це ваш проєкт, чого ви хочете досягти. Оцінити, чи ця задача поставлена коректно й чи можна вирішити це завдання за допомогою методів машинного навчання. Потім зібрати дані для аналізу й перетворити їх на зручний формат.
Наступний етап — статистичний. Він полягає в тому, щоб знайти критерії оцінки того, наскільки ефективною буде ваша модель, після цього шукати потрібну, програмувати її та використовувати. Якщо модель вже імплементована в бібліотеці, тренувати.
Потім оцінити економічну доцільність, стабільність, ефективність застосування моделі. Ці критерії можуть змінюватися залежно від мети завдання. Якщо модель функціонує належним чином, можна впроваджувати її у виробництво або продукт. Важливо підтримувати, супроводжувати й допрацьовувати модель, якщо потрібно. Це загальні етапи роботи.
Про галузі застосування data science та обов’язкові навички й інструменти для роботи в цій галузі дізнайтеся з лекції.