Рован Филп (Rowan Philp) – журналист, работавший более чем в двух десятках стран, в течение 15 лет главный репортер и глава лондонского бюро Sunday Times в Южной Африке, лауреат многих журналистских наград, советует, где найти данные о коронавирусе и инструменты для их анализа
Используя шумиху вокруг COVID-19, организованная преступность меняет маршруты контрабанды. Незаконные вальщики леса на Амазонке наращивают объёмы вырубки в условиях отсутствия контроля. Подскочили показатели безработицы и алкогольной зависимости. Темпы изменения климата не замедляются.
В тени пандемии коронавируса мир быстро меняется практически на всех уровнях, утверждает Джаннина Сенини, директор программы журналистики данных в Колумбийском университете, США.
По её словам, обо всех этих изменениях можно узнавать прямо в реальном времени, если найти уже существующие данные и проанализировать с помощью подходящих инструментов. Таким же образом журналисты могут наблюдать и смену привычек в обществе.
«Знаете, ваши внуки будут говорить про до- и послекоронавирусную эпоху. Мы сейчас наблюдаем уникальный момент в истории», — сказала она в июне 2020 на вебинаре GIJN из цикла «Расследуем пандемию». «Всё только начинается. На границах происходит так много всего — и никто за этим не следит. Но мы можем отследить всё по данным. Именно данные сейчас, как никогда, помогают понять, что происходит вокруг.»
Сенини — соосновательница Латиноамериканского центра журналистики расследований (обычно его называют испанским сокращением CLIP). Вместе с коллегой по CLIP, аналитиком данных Ригоберто Карвахалем они рассказали о поиске новых источников данных для расследований в новую эпоху.
Речь не только о влиянии COVID-19 и его последствий на здравоохранение. Сенини говорит, что редакциям стоит настроить «дашборды» — панели индикаторов, отражающих перемены в обычной жизни своих городов.
«С помощью автоматической интеграции и стандартизированных индикаторов можно придумать любые дашборды, отражающие изменения в таких переменных, как, например, количество штрафов за нарушение ПДД, количество задержанных, стоимость пищевых продуктов, принудительное выселение граждан», — объясняет она. «Общество переживает перемены прямо сейчас. И злоумышленники могут воспользоваться тем, что мы все отвлеклись на коронавирус. А ведь торговля людьми или коррупция никуда не делись, меняются только пути и методы. Происходит разрыв цепочек поставки. Ограничения на путешествия переворачивают с ног на голову отрасли морских и авиаперевозок.»
Цифры для примера были взяты выдуманные, но по словам Сенини, редакции могут создавать свои собственные дашборды индикаторов «привычного уклада жизни» и накладывать на статистику статистику COVID-19: так лучше видны последствия. Права на изображение: Колумбийский университет и CLIP
Раньше Сенини возглавляла отдел расследований в Коста-Риканской газете La Nación, и публикации её команды помогли привлечь к уголовной ответственности более 50 чиновников, в том числе трёх экс-президентов.
Карвахаль раньше работал в Международном консорциуме журналистов-расследователей и был одним из экспертов по данным в расследовании панамского досье (Panama Papers).
По его словам, статистика о COVID-19 из разных государств очень отличается по формату: где-то только скудные цифры и примитивные индикаторы, иногда можно скачать обобщенные данные — это самый распространённый вариант — но лучше всего, хоть и редко случается, когда есть данные с высокой степенью детализации по каждому случаю. В Латинской Америке он выделяет Мексику, Колумбию и Перу как страны, предлагающие самые полные наборы данных.
«Лучший способ сделать информативную визуализацию из набора данных — собирать детализированные данные с индивидуальными (но анонимными) записями по каждому случаю,» — объяснил Карвахаль.
Он считает, что важно использовать программы ETL (extract, transform, load — извлечение, преобразование, выгрузка) для автоматического импорта больших объёмов данных в дашборды или в визуализации. А для интеграции данных он применяет открытый инструмент Talend Open Studio.
Однако во многих странах статистика COVID-19 всё ещё ненадёжна. По словам Сенини, чтобы показать широкие последствия пандемии, по-прежнему, полезно собирать данные о сверхнормативной смертности.
«И в детализированных, и в обобщённых данных, как нам известно, учитываются не все случаи. Кто-то умирает дома; кого-то не протестировали, а инструкция предписывает включать в статистику только людей с позитивным тестом; где-то просто системы отчётности неадекватные или неточные,» — говорит она. «Многие боятся обратиться в больницу и умирают из-за возможных осложнений». Для подсчёта сверхнормативной смертности существует отдельная методология. Вам нужно найти сведения о смертности за аналогичный период времени в прошлые годы. Представить их можно в абсолютных числах или в процентах. Чем больше данных за прежние годы, тем точнее будет подсчёт.»
Она говорит, что появление данных о мобильности (с использованием анонимных и обобщённых сигналов мобильных телефонов) позволяет очень эффективно описать быстрые перемены.
Инструменты данных, рекомендованные Карвахалем и Сенини
- Данные о мобильности: Отчёты Google о мобильности пользователей во время пандемии COVID-19 показывают, как менялись перемещения абонентов в ответ на противоэпидемические ограничения. Сеть данных о мобильности в ситуации COVID-19 — группа эпидемиологов, которая использует анонимизированные данные мобильных телефонов и технологических компаний для отслеживания поведения абонентов.
- Анализ мобильности: Используя запросы маршрутов в своих картах, Apple, не нарушая конфиденциальности перемещений отдельных пользователей, публикует Отчёты Apple о тенденциях мобильности. Каталог, который упрощает геопространственный анализ перемещения людей: Платформа лабораторий Декарта.
- Открытые инструменты интеграции данных, например, Talend Open Studio. Для многих связанных с пандемией дашбордов и визуализаций важны автоматическая загрузка и интеграция данных.
- Инструменты анализа случаев COVID-19 для конкретных стран и регионов: Для США попробуйте 1Point3Acres и The Covid Tracking Project. Надёжные данные по Китаю можно найти тут: Ding Xiang Yuan. Данные из нескольких источников о последствиях пандемии в Африке можно почерпнуть в таких источниках: ONE Africa COVID-19 Tracker и Africa COVID-19 Tracker. Данные о сверхнормативной смертности в Европе можно найти в EuroMOMO. Новые сравнения сверхнормативной смертности, особенно для европейских стран, можно найти в Базе данных смертности человечества.
- Специализированные инструменты работы с базами данных: Медицинские данные, например о симптомах, анамнезе поездок и хронических заболеваний можно найти в Наборе данных Кэггла по новому коронавирусу. Данные о COVID-19 и расах пациентов в США можно поискать на ресурсе Трекер расовых данных по COVID.
- Источники по международной торговле и цепочкам поставки: Открытые источники данных можно найти в Базе данных UN Comtrade. Коммерческие базы можно найти на сайтах Panjiva, Datamyne или ImportGenius.