В погоне за данными: коронавирус

О полезности (или полезности) аналитики больших данных на наличие коронавируса (пока)

Пролог: Эбола

Раньше, когда я тратил много времени на проекты управления социальными сетями в чрезвычайных ситуациях (SMEM) Информация о вирусе Эбола и Коалиция социальных сетей Эбола (особенно на файлы, которые я хранил), я часто оставался в погоне за данными. Сообщения, даже из официальных правительственных источников, часто были противоречивыми, запоздалыми или просто ошибочными. Когда я представил свой последний отчет 28 марта 2015 года, было диагностировано 24 907 случаев и 10 326 смертей, связанных с Эболой, что примерно соответствует 40% смертности.

Хотя я перешел к другим проектам, болезнь продолжала опустошать Африку. Согласно окончательному анализу Всемирной организации здравоохранения (ВОЗ), опубликованному более года спустя, 10 июня 2016 года, было зарегистрировано 28 616 случаев заболевания Эболой и 11310 смертей - показатель смертности 39,5%. Я был не за горами.

Во время долгих испытаний были времена, когда ВОЗ приходилось отступать от цифр. Поступали ложные сообщения о болезни, которая позже оказалась лихорадкой Лхасы, малярией или чем-то еще.

Это привело к различным теориям заговора и иррациональным страхам. Особенно в Африке, где Эбола представляла реальную угрозу общественному здоровью, но даже далеко во всем мире, где случаи были редкими или отсутствовали, ощущалось повсеместное ощущение Эболанойи.

Блог Дальнейшие приключения девушки-зародыша автора Wired Мэрин МакКенна особенно проливает свет на ретроспективу (в настоящее время первые пять страниц результатов ). Он документирует иррациональное безумие, в которое доводились люди. Например, таможня США создает проблемы для тех, кто едет из международного аэропорта имени Даниэля Одубера Кироса в Коста-Рике просто потому, что он расположен в городе Либерия, Коста-Рика.

В мировом масштабе за период 2014–2016 гг. Было выявлено 28 616 случаев лихорадки Эбола из 7 400 000 000 человек на планете. Это показатель заболеваемости (вероятность заразиться лихорадкой Эбола) всего 0,00038%, или около 0,38 человека на 100 000 человек. Сравнивая это с обычным раком, с уровнем заболеваемости 439,2 на 100 000, у вас был x1 135 шанс заболеть раком, чем у Эболы.

Это не для того, чтобы минимизировать серьезность вспышки или минимизировать тяжелое положение, будь то экономические потери, эмоциональные травмы, страдания или смерть любого, кто действительно подвергся воздействию или заразился этой болезнью, или кто лично знал кого-то, кто пострадал.

Однако для остального мира это было то, что я называю проблемой «микроскопа / телескопа» иррационального увеличения: те, кто далеки от эпицентров болезни, рассматривали ее как непосредственную угрозу самой своей жизни. Как будто, глядя в телескоп, вы думали, что планета Юпитер находится у вас на коленях. (Подсказка: если бы это было так, вы бы уже задыхались из-за силы тяжести 2,5 г и мгновенно заморозились из-за ужасно низкой температуры.)

Новый коронавирус (он же 2019-nCov, он же COVID19)

Такая же картина наблюдается с нынешней вспышкой коронавируса в Китае в 2019 году. Поначалу было трудно разобраться в цифрах. В последнее время количество дел внезапно выросло с 45 000 до 60 000 из-за изменения методологии. Они использовали лабораторно подтвержденные случаи только для подсчета болезни. Это были точные данные, но не своевременные. Отставание в лабораторной обработке сделало подсчет ужасно коротким. Таким образом, для ежедневного обновления это было совершенно неточно. Когда они, наконец, выявили это отставание и вместо этого перешли к диагностике на основе клинических симптомов, именно это и вызвало скачок в цифрах. 13,332 дополнительных случая были зарегистрированы за один день на основании симптомов и еще 1820 подтвержденных лабораторно случаев. Это 15 152 скачка, из которых только 12% были подтверждены лабораторно.

Некоторые из этих случаев в конечном итоге будут отклонены как ошибочные. Но они предпочли бы ошибиться в сторону осмотрительности и оперативности данных, чем откладывать подсчет потенциальных случаев на несколько дней или недель.

По сути - и простите за аналогию - Китаю и Всемирной организации здравоохранения пришлось перенести чрезвычайную ситуацию в области общественного здравоохранения с строго согласованного набора данных, который не мог поддерживать количество случаев, на высокодоступный, в конечном итоге согласованный набор данных. один (в конечном итоге ложные срабатывания будут исключены). Мой нынешний работодатель, ScyllaDB, в этом разбирается.

Что касается общедоступных наборов данных, общественность должна понимать, что вы не сможете увидеть исходную информацию. Только представьте, какие проблемы с правами на конфиденциальность могут возникнуть в США при соблюдении требований HIPAA. Представители общественного здравоохранения не собираются сообщать точные имена и личности пострадавших, не говоря уже обо всех их предполагаемых контактах в течение нескольких недель. Лучшее, на что может надеяться общественность, - это анализ совокупных, анекдотических или случайных данных и метаданных, таких как сообщения в социальных сетях или глобальная информация о рейсах. У некоторых компаний, таких как BlueDot и Metabiota, уже есть сервисы по анализу таких данных. Но, опять же, это не общедоступные наборы открытых данных.

Вы также не увидите каких-либо спецэффектов в виде шпионских фильмов о компьютерах как волшебных, с приближением непосредственно к записям о том, кому именно был поставлен диагноз, неоновым диаграммам всех их контактов за последние несколько дней или недель, а затем быстро перемотайте все кадры наблюдения, где именно они могли быть в то время. (Смотри! Вот! Повар не вымыл руки!) Хотя алгоритмическое наблюдение обсуждалось в течение многих лет в отношении слежки китайского правительства, очевидно, что такие системы не смогли остановить поток этой вспышки болезни, как какая-то супер наука.

Коронанойя уже здесь

Это не заняло много времени. Coronanoia уже началась. Спекулянты стихийными бедствиями уже действуют, пытаясь заставить вас купить их продукт или услугу в качестве панацеи или предотвращения стихийных бедствий. Например, сегодня в моем корпоративном почтовом ящике появилось следующее:

Нет, это настоящая вещь. Я бы хотел, чтобы этого не было. Mobile World Congress в Барселоне в этом году только что свернул палатку из-за коронанойи.

Население Испании: 46,66 миллиона человек.
Всего случаев коронавируса в Испании на сегодняшний день: 2
Уровень заболеваемости коронавирусом в Испании: 4,28632662e-8, или 0,00428 на 100000 человек.
Общее количество участников Mobile World Congress в 2019: 109 500
Предполагаемое количество людей, заразившихся коронавирусом на MWC: 0,0046

Так зачем отменять мероприятие, если есть вероятность, что коронавирусом никто не заболеет? Обратите внимание, что все еще существует гораздо более значительная статистическая вероятность того, что заболевание простейшим гриппом вызвано посещением конгресса или заболеванием, просто путешествуя в самолете - грипп сильно колеблется и заражается от 3% до 20% людей в США. ежегодно. Однако редко кто отказывается от мероприятия из-за страха перед гриппом.

Итак, зачем отменять из-за коронавируса? Что ж, коронанойя. Эти два случая в Испании, а также вероятность того, что путешественники приедут в Испанию из Китая, привели к краху всего шоу. Одно за другим падали домино. Nokia, Vodafone, Deutsche Telekom вышли из игры. Ericsson, Sony, Intel, LG, Amazon…

По иронии судьбы, китайский гигант Huawei хотел выжить. Не имело значения, что региональный чиновник здравоохранения Альба Вергес заявила, что не было« причин для общественного здравоохранения отменять какое-либо мероприятие и что в регионе очень низкий риск заражения коронавирусом .

Основные якорные спонсоры уже ушли. Бум. Шоу окончено.

Ожидалось, что шоу принесет местной экономике что-то вроде полмиллиарда долларов США (513 миллионов долларов, если быть точным, и 13 900 временных рабочих мест). Но рябь будет ощущаться далеко за пределами Каталонии. United Airlines, которая добавила рейсы специально для того, чтобы привезти посетителей шоу в Испанию, WMC предложила принять отмену и отказаться от своих сборов. Не говоря уже о том, что глобальный бизнес приостановлен из-за срыва анонса основных продуктов, потенциальных клиентов, которые невозможно уловить, и приостановленных закулисных переговоров, которые обычно происходят на таком крупном торговом мероприятии.

И это не единственное мероприятие, которое отменяют из-за опасений китайских путешественников. Мероприятие Йельской модели Организации Объединенных Наций также было недавно вычищено. Через пять дней после отмены мероприятия выяснилось, что у студента ... как вы уже догадались, грипп.

Обновление [14 февраля 2020 г.]: IBM только что вышла из конференции RSA. Как они сказали в Твин Пикс: Это происходит снова.

Коронанойя, хотя она и окажет реальное воздействие на жизни и смерть многих людей, выходит за рамки своей реальной пропорции, чтобы отрицательно повлиять на экономику Китая и, в меньшей степени, на всю мировую экономику. Сам Китай может потерять 1,5% роста ВВП за один квартал из-за его последствий (0,6% за весь год, потому что экономисты ожидают восстановления).

Лучшие источники информации

Итак, хотя коронавирус представляет значительный риск для здоровья, и есть причины для беспокойства, если вы живете в пострадавшем регионе или контактировали с кем-то, кто приехал из там жизненно важно, чтобы каждый не впал в коленный рефлекс из-за невежества и слишком часто расистской коронанойи.

Так откуда брать факты?

Учитывая мой опыт работы в SMEM, в Твиттере меня искренне воодушевляют такие всплывающие окна, как @ COVID19Info и @DataCoronavirus. Молодец, ребята!

Тем не менее, мой собственный сайт, на котором я могу найти самую последнюю и самую авторитетную статистику, - это панель инструментов Johns Hopkins CSSE Глобальные случаи коронавируса COVID-19, созданная на основе системы Esri GIS.

Работая в компании, занимающейся большими данными, я задавался вопросом, какая система работает на этом. Должно быть массивным, не так ли?

Неа.

Что меня поразило, так это невероятно малый размер набора данных, который использовался для его создания (вы можете найти его на Github здесь). При загрузке всего репозитория создается несжатая папка размером 158 КБ. Ежедневные обновления кейсов составляют примерно 1–2 КБ каждая. Файлы временных рядов подтвержденных случаев, смертей и выздоровевших составляют 11 КБ, 8 КБ и 9 КБ соответственно. Всего 58 файлов.

Это не большие данные. Это крошечные данные. Он помещался на 5-дюймовую дискету емкостью 360 КБ c. 1976 г.

Srsly.

Ага. Итак, очевидно, что это не сырые, а совокупные, обобщенные данные. Например. Первые несколько строк файла time_series_2019-ncov-Confirmed.csv выглядят так:

Province/State,Country/Region,Lat,Long,1/21/20 22:00,1/22/20 12:00,1/23/20 12:00,1/24/20 0:00,1/24/20 12:00,1/25/20 0:00,1/25/20 12:00,1/25/20 22:00,1/26/20 11:00,1/26/20 23:00,1/27/20 9:00,1/27/20 19:00,1/27/20 20:30,1/28/20 13:00,1/28/20 18:00,1/28/20 23:00,1/29/20 13:30,1/29/20 14:30,1/29/20 21:00,1/30/20 11:00,1/31/20 14:00,2/1/20 10:00,2/2/20 21:00,2/3/20 21:00,2/4/20 9:40,2/4/20 22:00,2/5/20 9:00,2/5/20 23:00,2/6/20 9:00,2/6/20 14:20,2/7/20 20:13,2/7/20 22:50,2/8/20 10:24,2/8/20 23:04,2/9/20 10:30,2/9/20 23:20,2/10/20 10:30,2/10/20 19:30,2/11/20 10:50,2/11/20 20:44,2/12/20 10:20,2/12/20 22:00,2/13/20 10:00,2/13/20 21:15
Anhui,Mainland China,31.82571,117.2264,,1,9,15,15,39,39,60,60,70,70,70,106,106,106,152,152,152,200,200,237,297,408,480,480,530,530,591,591,591,665,733,733,779,779,830,830,830,860,889,889,910,910,934
Beijing,Mainland China,40.18238,116.4142,10,14,22,26,36,36,41,51,68,68,72,80,80,91,91,91,111,111,111,114,139,168,191,212,212,228,253,274,274,274,297,315,315,326,326,337,337,337,342,342,352,366,366,366
Chongqing,Mainland China,30.05718,107.874,5,6,9,27,27,57,57,75,75,110,110,110,132,132,132,147,147,147,165,182,211,247,300,337,337,366,376,389,400,400,415,426,428,446,450,468,473,486,489,505,509,518,525,529

На самом деле проще просто просмотреть это в Github, чтобы увидеть, что он вам говорит:

По сути, это простая таблица в формате CSV с описанием каждого отчетного периода для каждого города. 21 января обновление было произведено в 22:00. 22 января и 23 января отчеты приходили в 12:00. Однако 24 января поступило два сообщения; один с 0:00 (полночь) и один с 12:00. В некоторых днях их три (25 января - 0:00, 12:00, 22:00). Другие имеют буквально (численно) нечетные смещения (26 января 11:00, 23:00). К сожалению, в метаданных не указано, какое смещение часового пояса использовать (GMT? Китайское стандартное время?).

В современной базе данных, такой как Scylla или Cassandra, которые созданы для масштабирования до терабайт и петабайт, этот набор данных легко поместится в одну небольшую запись в виде большого двоичного объекта. Хотя это может быть не лучшая модель данных для него. Вы определенно захотите разбить его на столбцы, чтобы он был полезен. Но даже раскручивать кластер не стоит, если это все данные, которые вы собирались ему скармливать.

Тем не менее, этот небольшой фрагмент крошечных данных - это все, что нужно панели управления Johns Hopkins, чтобы информировать мир о распространении инфекции.

Честно говоря, есть еще некоторый анализ, который вы можете провести с этим, даже на этом небольшом фрагменте данных. Камран Ахмад, специалист по данным из PwC, на днях сделал отличный блог, проанализировав этот небольшой фрагмент данных с помощью NumPy и визуализировав его с помощью Matplotlib и Seaborn. Редактировать: [14 февраля 2020 г.]: Только что был опубликован еще один блог Льюиса Чоу На пути к науке о данных, в котором он собрал несколько довольно удобных диаграмм с различными источниками данных, некоторые из которых могут быть интересны тем, кто анализ моделей поведения. Анализ данных о миграции и поездках, шаблоны удаленной работы и некоторые информационные панели больниц. Хотя набор данных о новом коронавирусе не используется напрямую, такая аналитика - это то, что BlueDot и Metabiota делают для своих клиентов.

Но ... Это все еще оставляет человека в поисках реальных больших данных о самом новом коронавирусе. Где гигабайты? Где терабайты?

HDX использует данные Джонса Хопкинса только тогда, когда вы ищите коронавирус. (Поиск по COVID19 или 2019-nCov не дает ничего, кроме множества ложных срабатываний.)

Data.gov результаты поиска показывают 6 наборов данных для коронавируса. К сожалению, все результаты относятся к другому крупному коронавирусу, о котором мы уже знаем, - атипичной пневмонии. Не для нового, отдельного сорта 2019 года.

Опять же, я уверен, что некоторые межправительственные органы, такие как ВОЗ, различные правительства и организации общественного здравоохранения, больницы, лаборатории и НПО, имеют гораздо больше данных, которыми они не могут и никогда не будут публиковать. Но, надеюсь, со временем появятся некоторые более богатые наборы данных, которыми можно будет поделиться со всем миром. Или, по крайней мере, с учеными и специалистами в области анализа данных в рамках некоего аналитического государственно-частного партнерства.

Что касается отслеживания контактов, я склоняюсь к базе данных графов вроде JanusGraph. Если у вас десятки тысяч обращений, и у каждого из них может быть до сотен контактов, которые нужно отслеживать в течение нескольких недель, это может легко привести к десяткам миллионов ребер. Вы можете создать множество запросов Gremlin / Tinkerpop.

Для анализа различных временных рядов вы можете посмотреть на Scylla. Но, опять же, только в том случае, если ваш текущий или ожидаемый набор данных был огромным. Откровенно говоря, даже 100 000 записей в Scylla более чем немного разочаровывают, учитывая, что мы можем сканировать миллиард строк в секунду.

На данный момент тем, у кого есть опыт работы с большими данными, которые хотят проводить аналитику и вносить свой вклад в решение этой проблемы с точки зрения цифр, нужно проявить немного терпения. Необработанные наборы данных просто недоступны для публики. Но я уверен, что в свое время ваши навыки и таланты могут быть полезны сильным мира сего.

В погоне за данными: коронавирус