Превращение статистических данных в продукт

На прошлой неделе в Москву приезжал DJ Patil — ранее аналитик в LinkedIn и Ebay, а сейчас член совета директоров Wikimart, консультант в Color и еще каким-то венчуром занимается. Приезжал он с лекцией под названием «Джиуджитсу данных», основной посыл которой заключался в том, насколько эффективным и выгодным может быть процесс использования статистических данных, которые генерирует продукт, для улучшения продукта или для создания новых продуктов. Ниже некоторые тезисы его презентации (в моей вольной интерпретации).

Последние 10 лет потребность в исследователях данных (data scientists) растет экспоненциально. Аналитиков чертовски не хватает, так что имеет смысл задуматься не стать ли одним из них:)

Исследование того, как люди используют твой продукт, дает фантастические результаты, которые легко можно применить в улучшении продукта. Например, в Netflix в какой-то момент задумались над тем, что именно привязывает пользователя к сервису. Они провели целый ряд A/B тестов и обнаружили, что если пользователь добавляет в список фильмов, которые он хочет посмотреть, 7 и более фильмов, то практически со 100% вероятностью этот человек станет постоянным пользователем сервиса. В результате они на этапе регистрации предлагают пользователю выбрать фильмы, которые он хочет посмотреть, до тех пор пока пользователь не добавит как минимум 7 фильмов.

Превращение статистических данных в продукт

При проведении A/B тестов очень важно проводить A/A тесты. A/A тест — это когда ты разделяешь поток пользователей на две и более группы, но перед тем как дать разным группам разные варианты интерфейсов/сервисов, некоторое время сравниваешь показатели этих групп на одной интерфейсе. Если показатели одинаковые — значит, группы сформированы правильно (равномерно), и можно на них запускать A/B тест. Если же показатели разные, необходимо перегруппировывать пользователей.

Построение инфрастурктуры для работы с данными — необходимый важный этап. Пример Facebook, в котором изначально очень сильно вложились в построение инфраструктуры, а теперь любой сотрудник имеет возможность работать с данными, отслеживать тренды, проверять гипотезы и придумывать улучшения продукта.

При этом очевидно, в инфраструктуре для работы с данными не может быть только одного инструмента.

Очистка данных — как и инфраструктура очень важный этап, без которого весь последующий анализ может быть просто невозможен. Пример из LinkedIn — несколько тысяч вариаций написания компании IBM в качестве работодателя. При этом очистка данных во фронтенде (для примера с LinkedIn — всплывающие подсказки при вводе названия компании) может быть на порядки дешевле, чем очистка в бэкенде.

В ряде случаев средние значения не интересны и не годятся для формирования новых продуктов. Пример — LinkedIn Career Explorer, сервис, анализирующий, как люди меняют работу, и формирующий «прогноз» карьеры пользователя. Средние значения при таком анализе — пользователь через пять лет будет работать там же, где и сейчас. Но это неинтересно, поэтому используются экстремальные значения анализа, а не средние.

В прошлом году в LinkedIn провели исследование названий должностей и обнаружили, что количество людей, у которых в должности присутствует слово «ниндзя» драматически выросло за последние 10 лет. По мотивам этого исследования Wall Street Journal выпустил материал на первой полосе. То есть исследование данных дает огромные возможности для пиара продукта.