Напрям data science –– доволі новий, але робота з даними почалася давно. Нейронні мережі розробили в 1943 році, хоча насправді ці концепти були мертвонародженими, адже на їхнє втілення бракувало ресурсів, насамперед обчислювальних потужностей.
Активний розвиток data science припадає на двотисячні. У 1998 році Сергій Брін і Ларрі Пейдж виклали PageRank. Існує думка, що саме це стало поштовхом для подальшого розвитку нейромереж. Банки та страхові компанії вже досить давно використовували те, що ми зараз називаємо machine learning.
Найпростіші для нас розробки використовували вже тоді. Свого часу писали на різних мовах, зокрема S, SPSS, MATLAB, Octave. R поступово ставала популярною. У 2007 році з'явився Scikit-learn, який із розвитком Python набув поширення серед фахівців.
Декілька років тому Python став однією з найважливіших і найпопулярніших мов програмування не лише в data science, а й у решті сфер. На сьогодні використовують і Python, і R, а також Julia.
Наприклад, у 2014 році з’явився XGBoost — відомий фреймворк для різних табулярних та табличних задач data science.
Більшість моделей, фреймворків і підходів у сфері data science винайшли недавно, тобто це молода сфера, і в цьому є свої плюси й мінуси. Головний мінус –– у підготовці кадрів, через брак в Україні профільної освіти. Однак маємо високий рівень загальноосвітніх напрямів, зокрема математики, лінійної алгебри, інформатики.
В Україні потужний фокус на сервісний data science. Завдяки експорту IT спеціалісти, у порівнянні з іншими професіями в країні, отримують пристойну зарплату.
Особливість цього напряму в тому, що в Україні є відносно пасивне ком'юніті. Раніше була активною спільнота open data science, але з початком повномасштабного вторгнення вона перестала існувати.
Нам бракує платформи для спілкування, взаємодопомоги та підтримки. Є телеграм-канал Kyiv Data Science, можливо, ще декілька таких вузькопрофільних ком’юніті, але насправді великої платформи не існує.
Одна з причин, чому такої платформи немає, — нечисленність лідерів суспільної думки у сфері data science. На ситуацію неабияк вплинула пандемія COVID-19, зокрема на кількість конференцій. Спеціалісти, які раніше брали активну участь у розвитку ком’юніті, останнім часом виступають менше. Тому така кволість розвитку зрозуміла, але не продуктивна.
Сфера data science вже давно перестала грати першу скрипку в оркестрі. Раніше її спеціалісти одночасно займалися декількома процесами. Натомість тепер є позиція data engineer — це фахівець, який має безпосередньо свою зону відповідальності.
Є також ML engineers. Ці спеціалісти — хороші дата саєнтисти, серед іншого вміють спілкуватися з внутрішніми та зовнішніми замовниками, розуміють суть проблеми та її вирішення. Така гнучкість неабияк важлива, адже сфера досить нова.
Часом люди можуть посередньо орієнтуватися в data science, але мати досить розвинені soft skills — це product managers. Або AI evangelists, тренери й коучі. Вони мають знати необхідний мінімум, але головна їхня задача — правильно навчати.
AI і RnD менеджери — це люди, які керують командами. Звісно, вони мають бути технічно обізнані, з розвиненими софт скілами.
Існує два типи світчерів — із прокачаними софт скілами, але недостатнім рівнем хард скілів, і навпаки.
Для залучених у сфері IT, наприклад product managers, раціональніше рухатися в бік AI або продакт менеджменту.
Отже, насамперед варто визначитися, що відповідає роботі вашої мрії, і зрозуміти свою мотивацію. Це легко для студентів, бо вони на початку своєї кар’єри й можуть пробувати свої сили в різних напрямах. Використовуйте близьку для ваших потреб мотивацію задля реалізації мети. Після усвідомлення власної мотивації шукайте себе в системі координат і визначайте напрям руху. Оцініть свій рівень знань і почніть опановувати ці напрями.
Щоб отримати роботу, варто мати добірку власних розробок. На позицію junior зараз неабиякий конкурс, тому що в Україні data science як професія для початківців ще погано розвинена. Через це часто шукають senior спеціалістів, які можуть деліверити, тож готуйте портфоліо.
Наприклад, портфоліо можна наповнити проєктами, які віддзеркалюють останні події. Це буде свого роду пет проєкт, який ви й продемонструєте на співбесіді.
Коли ви визначилися з роботою вашої мрії, то можете дослідити компанії, які відповідають вашим інтересам. Для одних — це робота із зображеннями, для інших — з текстами чи аудіо. В Україні є компанії, які працюють з кожним із цих форматів.
З’ясуйте, як працює інфраструктура, аплікації як з інженерної точки зору, так і з data science. Ви можете створити свій невеликий задум, аналогічний проєктам компанії.
Підготовка до співбесіди — це окрема тема для обговорення. Існують різні стратегії підготовки. Але якщо ви відчуваєте в собі сили, маєте портфоліо, то мерщій на інтерв’ю.
Про заробітну плату й майбутнє сфери data science, дізнайтеся з лекції.