Візуалізація даних у роботі аналітика: типи діаграм і яку вибрати
Мене звуть Ганна Пономарьова, я Game Analyst в Plarium Kharkiv. В цьому році наш департамент запустив мобільний RPG-проект Stormfall: Saga of Survival і тепер займається його підтримкою. Моє завдання в проекті — оперативно аналізувати ігрові процеси та надавати звіти для коректної настройки балансу.
Візуалізація — один з найбільш ефективних інструментів презентації даних. Вона дозволяє наочно відстежити основні тенденції, залежності, розподілу і відхилення досліджуваних ознак, знайти кореляцію показників, оцінити зміни, допомогти прийняти правильні бізнес-рішення.
Важливо не просто показати інформацію, а зробити це максимально зрозуміло і прозоро для замовника, виділивши ключові показники. Як саме це зробити, я і постараюся розповісти в статті.
Як не треба робити
Часто, намагаючись вичавити з наявною інформацією всі ми можемо отримати щось дурне і лякає.
Або ще гірше.
Пам'ятайте, що багато-не значить добре. При цьому, дивлячись на дашборд, користувач повинен знаходити відповіді на всі питання, що стосуються конкретного аналізу. Не буде толку, якщо відповідь на одне з питань потребує зіставлення інформації з десяти вкладок.
Етапи аналізу даних
Перш ніж приступити до візуалізації, розглянемо всі етапи аналізу даних.
Формулювання мети
Кожне дослідження повинне відповідати на ряд поставлених питань — не треба плодити дослідження для досліджень.
Збір даних
На цьому етапі аналітик або працює з уже зібраними даними, або бере участь у процесі постановки завдання на збір даних (фактично вирішує, яка інформація йому потрібна і в якому вигляді).
У першому випадку особливу увагу варто приділити правильній інтерпретації даних, які записані в базу, і часто змиритися з існуючим форматом даних, дизайном таблиць і т.д. У другому випадку аналітик стикається з проблемою побудови грамотного сценарію збору даних — він може особливо перестаратися в плануванні А/В-тестів, логировании подій і т. п. Тут важлива комунікація з програмістами, які можуть допомогти в розумінні процесів та оцінці масштабів планованих записів.
Підготовка даних
«Сміття на вході — сміття на виході» — правило, про яке завжди потрібно пам'ятати. Структурування, усунення помилок, зміна форматів вмісту, розбір аномальних результатів, очищення від викидів, усунення дублікатів, інтеграції даних з різних джерел — одні з найважливіших пунктів в аналізі даних.
Іноді потрібне розширення метрик, наприклад додавання обчислювальної інформації (приріст, ранг, номер тощо). Іноді слід скоротити кількість ознак (змінних) або перейти до допоміжних змінних, які приймають одне з двох значень: true (1)/false(0).
На цьому етапі сирі дані перетворюються на корисну вхідну інформацію для моделювання та аналізу.
Дослідження даних
Для правильної інтерпретації багатовимірних даних необхідно подивитися на них в розрізі як конкретної ознаки, так і групи ознак. Також слід представити ключові показники в динаміці з планами і фактичними результатами. Саме на цьому етапі підбирається формат майбутньої візуалізації.
Візуалізація та побудова висновків
Кожне дослідження повинне закінчуватися результатами та висновками. Навіть якщо вони негативні, їх варто проговорити і обговорити. При цьому правильна постановка задачі, проведення збору даних, правильна інтерпретація результатів, виявлені помилки і багато іншого повинні послужити базою для подальших досліджень.
Час, що витрачається аналітиком на кожну фазу, залежить від багатьох змінних: починаючи від досвіду роботи та рівня знання даних, закінчуючи переліком використовуваних інструментів і технічних характеристик ПК.
Необхідно також розуміти, що процес аналізу даних має ітераційний характер і може бути представлений циклом.
Щоб сформулювати остаточні висновки, іноді необхідно пройтися по циклу кілька разів. Щоразу уточнюючи дані, перебудовуючи моделі обробки і представлення даних, отримуючи все нові знання про аналізованої сутності. Щоб зменшити кількість ітерацій циклу і час, що витрачається на аналіз, аналітик повинен бути не тільки фахівцем в області Big Data, але і добре знати свою предметну область (будь то ігрові механіки або інтернет речей).
При цьому тільки досвід допомагає зрозуміти, які дані і методи аналізу потрібні в кожному окремому випадку і як інтерпретувати результати.
Вибір діаграм для візуалізації
Щоб правильно вибрати діаграму, необхідно в першу чергу сформулювати мету: що конкретно вона повинна показати. Якщо цілей декілька, можливо, варто побудувати окрему діаграму для кожної з них.
Джин Желязни у книзі «Говори мовою діаграм» пише, що (майже) кожна ідея може бути виражена за допомогою порівняння. Потрібно лише визначити тип порівняння даних:
- покомпонентне: відсоток від цілого;
- позиційне: співвідношення об'єктів;
- тимчасове: зміни в часі;
- частотне: число об'єктів в інтервалах;
- кореляційне: залежність між змінними.
Автор пропонує використовувати наступну таблицю для вибору діаграм:
Якщо проводити класифікацію за об'єктами, то можна виділити такі типи візуалізації:
- детерміновані залежності: графіки, діаграми, часові ряди;
- статистичні розподіли: гістограми, матриці діаграм розсіювання, графік «ящик з вусами»;
- ієрархії: діаграми зв'язків дендрограми;
- мережі: графи, дугові діаграми;
- геовизуализация: карти, картограми.
Щоб спростити собі роботу, я використовую схему за вибором діаграм Ендрю Абела, в яку внесла деякі правки і адаптувала під свої завдання.
Оригінальну схему Ендрю Абела можна подивитися тут .
Вибір діаграми на конкретному прикладі
Мені необхідно було створити дашборд для контролю income/outcome-ресурсів, які гравці добувають, знаходять або отримують в нагороду. Це була досить складна задача, що вимагає зібрати воєдино кілька таблиць, врахувати безліч нюансів і не випустити з уваги жодного джерела/споживача ресурсів.
Спочатку я розписала, як зібрати дані, які показники необхідно розрахувати і як саме це зробити, як повинна виглядати візуалізація. Потім фахівці з Game BI Department (відповідають за базу даних для всіх наших проектів) перевірили правильність алгоритму збору, оптимізували запит і сформували дашборд за моїм дизайном.
Для вибору діаграми я використовувала методику, описану вище.
- Порівнюємо 2 ознаки (кількість отриманих і витрачених ресурсів) — значить використовуємо столбчатую діаграму.
- У нас кілька джерел для одержання ресурсів і способів їх витрати — тому додаємо структуру до стовпчастої діаграми (кожен джерело і споживач позначаємо своїм кольором).
- Відстежуємо, як змінюється прихід і витрата ресурсів залежно від ігрового дня, — горизонтальній осі задаємо відповідний параметр.
- Для зручного читання всі income-дії (прихід) відображаємо зверху горизонтальній осі, а outcome (витрата) — знизу. Це дозволяє візуально оцінити величину різниці.
- Щоб було зрозуміло, в які періоди життя гравця виникає профіцит, а в які дефіцит того чи іншого ресурсу, накладаємо на столбчатую діаграму лінійний графік, який візуалізує обчислюване поле різниці.
Приклад виявленого профіциту предмета (лінійний графік вище стовпців).
Приклад життєвого циклу ресурсу та його переходу з профіцитною категорії до дефіцитної (лінійний графік нижче горизонтальної осі).
В підсумку наша діаграма показує прихід і витрата ресурсів у різні ігрові дні і демонструє наявність дефіциту або профіциту ресурсів.
Також ми хотіли подивитися, як на рух ресурсів впливають коригування балансу гри. Для цього ми доповнили дашборд діаграмою зміни структури ресурсів у часі, де по горизонтальній осі тепер була обрана дата. Так ми забезпечили моніторинг життєвого циклу ресурсів в декількох означальних розрізах: життєвого циклу гравця і в часі.
Періодичність
Більшість висновків за дослідженнями втрачають актуальності з часом. Деякі дані необхідно уточнювати щодня, деякі моніторити щомісяця і т. д. Необхідно відразу чітко класифікувати ознаки з точки зору частоти оновлення:
- вимагають безперервного моніторингу (стандартні показники retention, конверсії тощо);
- дані, динаміку яких слід оцінювати періодично (результати А/В-тестів, динаміку набору рівнів тощо).
Знову таки, чарівної таблетки в цій задачі не існує, адже ознаки, які потрібно відстежувати, дуже прив'язані до предметної області (до жанру гри, реалізованим механікам і т. д.).
Автоматизувати цей процес поки проблематично — розробка інструментів для безперервного моніторингу абсолютно всіх показників ні до чого доброго не призведе. Як ми вже говорили, обробка великих обсягів даних включає етапи збору і первинної обробки інформації, завантаження в сховище, аналіз даних та надання результатів у зручному для сприйняття вигляді. Вимога обробки в режимі реального часу робить завдання ще більш складною і ресурсозатратной.
Корисні посилання
Грамотна організація дашбордов
Інструменти візуалізації даних
Висновки
Хочеться ще раз підкреслити, що грамотна аналітика ніколи не робиться швидко, вимагає дуже уважного підходу і завжди починається з запитань. Головне, що повинен неодмінно контролювати аналітик, — щоб після його звіту кількість цих питань зменшувалася, а не росло.
Опубліковано: 28/11/18 @ 11:00
Розділ Різне
Рекомендуємо:
DOU Hobby: рух Zero waste — океан без пластику і життя без мотлоху
Як я працюю: Богдан Гусєв, CTO Talkable
Technical Writing дайджест #0: новий реліз MadCap Flare, приклади зразкової документації та телеграм-канали для техрайтерів
Геометричний підхід до спрощення логічних схем
DOU Books: 5 різноманітних книг, які радить Микола Котляренко, Business Analyst у SoftServe