Гараж

Як (не) брехати за допомогою візуалізації даних: лекція Андрія Газіна

Одна візуалізація може замінити мільйони рядків в таблиці. З плюсів — інформацію просто зрозуміти, з мінусів — даними легко маніпулювати. Куратор курсу Data Visualization Андрій Газін розповів на лекції, чому з'являються помилки у візуалізаціях та як їх не припускатися. Ми ж ділимося коротким конспектом.
Data Visualization курс у Projector
Куратор курсу Data Visualization у Projector Андрій Газін
Андрій Газін
Фахівець з візуалізації даних, журналіст даних і консультант з відкритих даних. Викладає візуалізацію даних на магістерській програмі з Data Science та бакалаврській програмі з Computer Science в Українському Католицькому Університеті. Веде тематичний блог Textura.in.ua

Як працює візуалізація даних

Візуалізація — це кодування даних за допомогою візуальних властивостей геометричних об'єктів. Це технічне визначення, що пояснює як власне створюється візуалізація. Тобто ми беремо певні геометричні об'єкти: точки, лінії, полігони. Використовуємо їх візуальні властивості: позиція, колір, розмір тощо. І все для того, щоб виконати поставлене перед нами завдання.

Які завдання вирішує візуалізація

Є два основних завдання, які виконує візуалізація.

Перше — упаковує масив даних в одну картинку. Завдяки візуалізації ми можемо таблицю на мільйони записів стиснути до розмірів компактної картинки, яка вміститься на один екран. Що дозволить користувачам простіше опрацювати цю інформацію.

Друге — пришвидшує обробку інформації. Візуалізація покликана пришвидшити виконання певних завдань. Вона повинна допомогти людині виконати завдання, для яких недостатньо просто опису. Наприклад, виявити певні тренди, патерни, аномалії.

Що важливо — візуалізація має зробити цей процес якомога простішим. Оцінити це можна за двома критеріями: швидкість та точність виконання поставленого завдання.
Для прикладу візьмемо послідовність чисел (скріншот 1) й уявимо, що наша мета — виділити число «2». Як ми можемо це зробити?

— Використати таку візуальну властивість як колір. Тобто виділити всі двійки, які зустрічаються (скріншот 2).

— Можемо змінити ще одну візуальну властивість — спосіб нарису. Так ми робимо потрібну нам інформацію ще більш помітною (скріншот 3)

— А можемо працювати не з посиленням сигналу, а зі зменшенням шуму. Зробити помітними (скріншот 4).

Варто пам'ятати, що не всі візуальні властивості однаково добре працюють для всіх типів даних. Одні ефективніші для кількісних даних, інші — для категоріальних.

Чому можливі маніпуляції

Візуалізація даних заснована на тому, як працює людська система сприйняття. Ми знаємо, що здатні у фоновому режимі обробляти велику кількість візуальної інформації, навіть не усвідомлюючи цього. Наприклад, саме це допомагає нам орієнтуватися й пересуватися в просторі.

Також ми у фоні ми можемо дуже швидко ідентифікувати певні патерни. Це і перевага, й слабкість одночасно.

Згадані вище пункти — це перевага. Слабкість же в тому, що брехня й маніпуляції у візуалізаціях можливі суто завдяки цій людській особливості. Через це ми можемо споживати візуальні продукти занадто швидко й занадто рано перестрибувати до висновків. Навіть не усвідомлюючи всієї процедури мислення й всієї послідовності прийняття рішень.

Таким чином нам можна «продати» якісь речі ще до того, як ми зрозуміли, що саме нам продають.

Чому виникають помилки

Візуалізація постійно використовується у публічних дискусіях чи медіа. Загалом це хороший тон, бо зазвичай таким чином підкріплюють певні аргументи. Але є кілька проблем.

— Люди схильні надмірно довіряти візуалізації даних

У нас є наївна настанова, що оскільки щось є на графіку — ймовірно воно істинне. Бо, скоріш за все, графіку передувало якесь дослідження. Але мало хто замислюється над тим, що за дані лежать в основі цієї візуалізації: в який спосіб вони були зібрані, яким чином трансформовані, чи є там якісь пропуски або нюанси методики збору, про які ми не знаємо.

Візуалізація — тільки верхівка айсберга, під водою ж залишається вся передісторія збору даних, яка насправді важлива.

— Люди не завжди замислюються про походження даних

Хороша практика — дати доступ до джерела даних або чітко зазначити якісь метадані. Наприклад, ким, коли і як вони були зібрані. Найкраща практика — залишити сам набір з даних поряд з візуалізацією.

— Більшість не знає, як читати графіки

Як ми й говорили, візуалізація заснована на тому, як працює наша система сприйняття. Вона використовує спільні для нас біологічні й когнітивні особливості. Але ми не народжуємося з вмінням читати графіки конкретного типу. Ця навичка набувається.

Наприклад, згідно з дослідженням Pew Research Center, лише 63% опитаних американців змогли коректно інтерпретувати графік розсіювання. На результат впливає те, як часто люди раніше контактували з таким видом графіків. Відповідно ж до інших досліджень, найважливіший інструмент візуалізації — це заголовок. Саме він диктує користувачеві напрямок інтерпретації.
Дата Візуалізація курс у Проджектор
— Ще менше людей розуміє, як правильно створювати візуалізації

Люди, які змушені використовувати візуалізацію даних в роботі, не обов'язково проходили якісь спецтренінги. І в цьому — великий потенціал для маніпуляцій. При чому брехня, яка виникає в процесі, — несвідома.

Багато маніпуляцій виникають тому, що люди покладаються на стандартні налаштування інструментів, які використовують. Найпопулярніший, певно, Microsoft Excel. Він доступний й дозволяє швидко створити візуалізацію, але не дає контролю над ухваленими рішеннями.

— Мало хто знає принципи організації візуальної інформації

Одна з найпоширеніших помилок — спроба втиснути якомога більше даних. В таких продуктах відсутня візуальна ієрархія, тобто відокремлення важливого від другорядного. Тому в них легко заплутатися й зробити неправильні висновки.

Які помилки найпопулярніші

Перш за все — таких помилок дуже багато. Ми ж поговоримо про найбільш типові. Якщо зрозуміти причину їх появи, то простіше буде ідентифікувати й інші.

Порушення пропорцій. Найбільш загальна помилка у візуалізації даних. Коли ми робимо візуалізацію, то ніби домовляємося з користувачем. Наприклад, що колір залежить від однієї змінної, розміщення від іншої. А пропорції між візуальними об'єктами мають бути такими ж, що й між числами, на яких вони базуються. Коли ми порушуємо це правило, то створюємо хибне враження в користувача.

Це найбільш класичний спосіб маніпуляції за допомогою даних, завдяки якому можна завищувати чи занижувати різницю між показниками.
Приклад статистики
Зверніть увагу на візуальну різницю, а тоді на різницю в числовому значенні
Неправильне використання графіків. Якщо дуже спростити — існує певна кількість типів графіків. Всі ці типи графіків певним чином класифіковані, залежно від функції, яку вони виконують. Є функції порівняння, зміни в часі, частки в цілому, розподілу, положення. І важливо завжди співвідносити тип графіку до функції яку він виконує. Нецільове використання графіків може підштовхнути аудиторію до неправильних висновків.

Наприклад, на візуалізації нижче ми підштовхуємо користувачів до думки, що два показники якимось чином пов'язані між собою.
Приклад статистики з Ніколасом Кейджем
Приклад сатиричного графіку з подвійними осями. Він показує кореляцію між кількістю людей, які втопилися в басейні, та кількістю фільмів з Ніколасом Кейджем, які вийшли того ж року
Декорування даних. Замовники можуть сказати: «Графіки занадто нудні, нецікаві й треба їх змінити». І тут виникає потреба в декоруванні. Тобто додавати до візуалізації графічні елементи, які не виконують жодної функції, а просто прикрашають.

На прикладі нижче третій вимір і градієнт нічого не комунікують. Вони просто роблять стовпчики більш візуально насиченими, через що фокус з коректності донесення даних зміщується на зовнішній вигляд графіку.
Приклад статистики 2
Порушення конвенцій. Ми вже зафіксували, що візуалізація базується на роботі нашої система сприйняття. Але це не тільки про біологію. Візуалізація також заснована на великій кількості культурних чи соціальних установок. Наприклад, на асоціації певних кольорів з певними емоціями: зелений ми можемо сприймати як щось позитивне, червоний — як негативне. Або ж на те, як ми сприймаємо плин часу. Оскільки ми пишемо зліва направо, то найчастіше час теж сприймаємо так.

Коли ці установки порушуються, то порушується й саме сприйняття візуалізації. Доведеться більше часу витрачати на сприйняття інформації й все одно є великий ризик, що виникне помилка.

Як уникати брехні у візуалізації

Ми зосередимося на коротких правилах, щоб зрозуміти загальні настанови. Їх варто використовувати й при створенні, і при зчитуванні візуалізації даних.
1
Ставити під питання взагалі все. Перш за все, це стосується створення візуалізації даних. Ми вже говорили, що багато невдалих рішень при створенні візуалізації — не ваші рішення. А рішення людей, що розробили інструменти для візуалізації. Тому на вас лежить додаткова відповідальність — пересвідчитися, що все працює як має: вісь розташована в конкретному місці з конкретною причиною, колір щось репрезентує тощо.
2
Розуміти завдання. Одна із найбільш поширених помилок виникає, коли люди створюють візуалізації без конкретної мети. Попри поширену думку, дані — не говорять самі за себе. Кожна візуалізація — це завжди інтерпретація даних.

Якщо ми маємо конкретну мету, то можемо тестувати візуалізацію. Порівнювати, що ми закладали й що зчитують наші користувачі. З точки зору споживання — треба завжди чітко розуміти, яка думка доноситься. І потім співвіднести це із тим, що зображено.
3
Тестувати все. Не ставтеся до візуалізації як до твору мистецтва чи продукту, який можна публікувати з настановою: «Я так бачу». Це дослідницький або комунікативний продукт.

Тестуйте ваші візуалізації перед публікацією. Перевіряйте, які повідомлення зчитують ваші користувач, наскільки точно. Це особливо важливо, якщо візуалізація інтерактивна. Тоді треба зрозуміти, чи взагалі користувачі здогадуються про цю інтерактивність, чи розуміють в який спосіб треба взаємодіяти.
Повну лекцію від Андрія дивіться на нашому каналі, а навчитися самим створювати складні інтерактивні візуалізації можна на курсі — Data Visualization.
Головне фото: Наталія Азаркіна
Гараж
Сподобалась стаття?