Вы здесь

Убить трех зайцев. Как редакции работать с данными и к чему это приводит

Ремесло

Есть десятки способов найти информацию: комментарий эксперта, исследование, заявление чиновника, личное участие корреспондента в каком-либо мероприятии, наконец, можно просто взять какую-то тему у конкурента, переписать или развить ее. Но самое сложное — это научиться анализировать собственные данные или большие массивы данных, к которым имеют доступ все СМИ. Как это можно сделать — рассуждает руководитель проекта Кино Mail.Ru Катя Староверова

Я имею в виду разные цифры от местных органов власти, министерств или Росстата. У большинства авторов эти огромные таблицы ничего, кроме ужаса, не вызывают. Но и это не главная проблема — у редакций порой просто не хватает времени на креатив, работу с данными. Ну а главную роль играет привычный уклад: нарушать и придумывать что-то новое — болезненно и страшно.

Я расскажу про то, как сделать это максимально безболезненно. Главное — найти энтузиаста (ха-ха!), который будет готов к анализу данных и вдохновит редакцию на креатив. Возможно, мои мысли будут полезны не только СМИ, но и сервисам, интернет-магазинам и даже администрациям-министерствам.

 

Анализируй это

Для начала давайте посмотрим на то, что у вас есть. Может быть, вы готовы провести какой-то актуальный опрос, на который ответит приличное количество пользователей. Причем не обязательно делать это на сайте издания — используйте соцсети (например, городские группы). Но вдруг вам повезло и у вас (как у нашего проекта Кино Mail.Ru) есть куча информации и вы даже не задумываетесь, на какой горе золота вы сидите (да, я настаиваю, что это именно золото!).

Это могут быть просмотры, оценки, отзывы, комментарии, покупки, интерес к определенным покупкам или услугам, просто статистика от местных властей.

Данные можно использовать для создания собственных статей, инфографики, расследования или даже редакционного проекта. А можно предложить их другим изданиям — пусть они наконец-то напишут про вас!

 

Расскажу про наши кейсы

Кейс 1 — как мы заигрались в статистику

Каждый декабрь мы подводим итоги года — смотрим, какие фильмы и сериалы смотрели больше всего, у каких — самые высокие оценки. В какой-то момент мы осознали, что нам нужны какие-то инструменты, которые позволят быстро смотреть статистику по фильмам, сериалам, телешоу. И главное, чтобы мы могли видеть разделение по соцдему и регионам.

В этом нам помогла аналитическая СУБД ClickHouse. Эта технология для работы с большими данными позволяет работать с запросами, оперативно получать нужную информацию и даже строить простейшие графики. Летом мы сделали рейтинг фильмов за первое полугодие. Причем с разделением по регионам и полу (что лучше оценивали мужчины, а что — женщины).

Получилось достаточно много любопытных данных, из которых самые интересные мы предложили сразу нескольким СМИ. В результате вышло более 200 материалов про лучшие и худшие фильмы полугодия.

Но главное — мы увидели особенность оценивания у наших пользователей. Какие фильмы, сериалы и телешоу кому нравятся, что оценивают много, но крайне низко. А что действительно пользуется популярностью и действительно нравится пользователям. Это было полезно для редакции и понимания интереса к определенным темам.

Кейс 2 — как мы смотрели ужастики

К Хэллоуину мы решили сделать не просто список лучших ужастиков по оценкам наших пользователей. А придумали индекс успешности фильмов. В базе данных выбрали фильмы ужасов и фильмы с двумя жанрами «ужас» и «триллер», выгрузили их оценки, год выпуска, бюджет. На сайте взяли кассовый сборы и уже тогда посчитали рейтинг. Он состоит из окупаемости фильма, года, средней оценки и бюджета.

Для визуализации данных я использовала один из алгоритмов кластеризации в Python. Оси здесь — это индекс и средний балл. На картинке видно, что лучшими фильмами можно признать «Оно» и «Изгоняющий дьявола», также неплохие результаты — у фильмов «Сплит», «Заклятье», «Астрал», «Не дыши», «Мама». Интересно, что классические фильмы ужасов — «Психо», «Сияние», «Нечто», «Кэрри» и «Восставший из ада» «схлопнулись» в один кластер. А супердешевые в производстве и собравшие неплохую кассу «Паранормальное явление» и «Ведьма из Блэр: Курсовая с того света» — в другой. По данному индексу мы сделали небольшую заметку на сайте.

А вот так выглядит визуализация данных с разбиением на кластеры. Почитать про кластеры можно тут.

А также отдали топ лучших и худших ужастиков в некоторые СМИ и получили пару десятков публикаций.

В этот раз мы не стали визуализировать данные, как уже делали с фильмами и сериалами — напомню, что это группировка фильмов и сериалов по схожести того, как их оценивали пользователи. Или даже делать какую-то относительно простую инфографику, как например, тут.

Но зато мы поняли, какие ужастики могли бы порекомендовать друзьям — из таблички это видно не так явно. Приходится выбирать или сортировку по оценке, или сортировку по индексу.

В случае с ужастиками у нас было только несколько десятков фильмов, первичная обработка данных позволила выкинуть кино с плохими оценками или фильмы, которые провалились в прокате. А что-то придумать с сэмплом из 50 фильмов уже несложно. Но представьте, если у вас сет из несколько сотен или тысяч данных? Вот, например, кластеризация из 10 тысяч сериалов)

Визуализация — это самое лучшее, что можно сделать с данными, чтобы быстро увидеть суть. Пробуйте делать простые гистограммы, графики. Анализировать пики, считать индексы и видеть зависимости. Даже если у вас нет возможности сделать красивую инфографику визуализация поможет вам увидеть суть и найти новые темы.

Medium

Оценить материал:
Голосов еще нет
распечатать Обсудить в: