Data science для продактів

Погані дані як головний ворог ефективного машинного навчання і бюджетів компаній

Наталія Аванесова — Product manager (AI, NLP). PhD, авторка наукових публікацій з лінгвістики, має 8 років досвіду викладання у ВНЗ. Кураторка професійної практики з комплінгвістики студентів УКУ і менторка для Junior/Middle NLP спеціалістів. Кураторка курсу NLP Beginning в Projector.

Відсутність контролю якості даних в життєвому циклі моделі машинного навчання завжди коштує дорого і має неприємні наслідки. Алгоритми машинного навчання дуже залежать від точних, чистих і добре розмічених даних. Використання найпрогресивніших інструментів MLOps та високоякісних моделей не матиматить значення якщо ваші дані — сміття. Сміття на вході — це сміття на виході.

У доповіді буде розказано, як погані дані псують машинне навчання, а також будуть розглянуті поширені практики та поради щодо забезпечення якості даних.