Перейти к основному содержанию
На сайті проводяться технічні роботи. Вибачте за незручності.

О чем (не) говорит статистика

Как ученые Винницкого национального технического университета составляют прогноз распространения коронавируса для СНБО и Кабмина
13 января, 19:02

Модель для долгосрочного прогнозирования распространения вируса COVID-19 разработали преподаватели кафедры системного анализа и информационных технологий Винницкого политеха. Технология базируется на данных из 70 стран и позволяет делать недельные и двухнедельные прогнозы распространения эпидемии не только по территории Украины, но и мира. В ее основе оригинальный подход к моделированию факта заражения через отслеживания влияния аномальных дат (праздников, изменений карантинного режима, теплых дней без осадков) с использованием специально настроенной для этого модели Facebook Prophet. Поэтому погрешность прогноза минимальная и составляет 2-7,5%, в зависимости от представленных данных, отмечает автор модели, научный руководитель научно-исследовательской лаборатории экологических исследований и экологического мониторинга, профессор ВНТУ Виталий МОКИН. Он признает, что в Украине просчитать, как поведет себя вирус в долгосрочной перспективе, не позволяет «хромота» отчетности, а вот спрогнозировать развитие событий на неделю-две вполне вероятно. Поэтому, забегая вперед, замечает, что не стоит недооценивать целесообразность введения локдауна на фоне низкого уровня заболеваемости. Ведь вирус имеет много «скрытых резервов», с которыми наша система медицины может не справиться, если начнется новая волна.

«Вопрос о целесообразности локдауна, наверное, чаще всего задают журналисты. Казалось бы, вводить его в фоне уменьшения статистики больных не рационально, но на самом деле не все так просто, особенно у нас. Первое, на что стоит обращать внимание, — это не количество больных, а график падения количества тестов и процент положительных среди них. Если раньше делалось 50 тыс. тестов и из них было 10 тыс. положительных, имеем 20%, а когда 20                тыс. тестов — 10 тыс. положительных — это же 50%. Понятно, что тестов делается недостаточно. Наши специалисты говорят, что у нас соотношение низкое, когда 35% положительных от общего количества проведенных ПЦР-тестов. Я видел график Германии и других ведущих стран — 5,7% до 10% положительных тестов. То есть, если у них позитивность более 10%, они существенно увеличивают количество тестов, чтобы снова снизить до 10%. А у нас «вымахали» до 35% и говорят, что все — ОК! Поэтому вполне возможно, что у нас, несмотря на указанные показатели, на самом деле с количеством больных все сложнее».

«НАШИ ОТЧЕТЫ ПОПАДУТ К ЛЮДЯМ, КОТОРЫЕ ПРИНИМАЮТ РЕШЕНИЯ»

Виталий Мокин рассказывает, что алгоритм построения модели составления прогнозов он со своей командой испытали на основе данных по 70 странам мира. Не везде она сработала на 100%, но, например, для США погрешность какое-то время составляла всего 5%, Беларуси — 2% и это еще упрощенная модель. Сейчас они усовершенствовали технологию и сумели выяснить новые интересные закономерности и глубже освоить современные модели прогнозирования, в частности временных рядов с использованием искусственного интеллекта. Такая система заинтересовала ученых из НАНУ, которые предложили винницким ученым присоединиться к моделированию и составлению прогноза распространения эпидемии. Теперь программа винничан ежедневно автоматически скачивает данные СНБО (они предпочитают работать только с открытой информацией) и выдает графики-прогнозы, которые еженедельно оформляют в отчеты и отправляют в Киев, для отчета рабочей группы, которая затем пересылает в СНБО и Кабмин. Ознакомиться с ними можно по ссылке: http://www.nas.gov.ua/UA/Activity/covid/Pages/wg.aspx.

«Долгое время я занимаюсь так называемым направлением Data Science и искусственным интеллектом, который просто незаменим для обработки данных в различных сферах. В гугловской платформе Kaggle я стал первым из украинцев, кто получил статус гроссмейстера по разработке программ и вхожу в число пятнадцати из более 175 тыс. участников со всего мира — специалистов по искусственному интеллекту. Так вот, летом прошлого года одна из моих разработок попалась на глаза рабочей группе при НАНУ, которая исследовала распространение коронавируса для СНБО и Кабмина, — вспоминает профессор. — Они сразу сказали, что у них есть своя модель прогнозирования, но им интересно было бы привлечь и других специалистов, ведь аналитической информации много не бывает. Так началось наше сотрудничество, правда, на волонтерских началах. Но когда ты имеешь знания и навыки, которые можешь применить для общественных целей, то это и есть тот вклад, который должны делать ученые в борьбе с эпидемией. Наши отчеты попадут к людям, которые принимают решения. Возможно, именно какой-то из моих графиков вдохновит их на понимание аспектов проблемы, а принятые решения приведут к улучшению ситуации».

«ГЛАВНАЯ ОСОБЕННОСТЬ — ОТСЛЕДИТЬ ВЛИЯНИЕ ПРАЗДНИКОВ НА ЗАБОЛЕВАЕМОСТЬ»

По сути система, разработанная Виталием Мокиным, обрабатывает огромный объем информации, включая данные о всех сделанных в Украине ПЦР-тестах на коронавирус, предоставленные СНБО. Профессор признает, что на сегодня в Украине проводят мало тестов на ПЦР: осенью было до 60                тыс., а в первых числах января было 11-15 тысяч. В Великобритании, по утверждениям соцсетей, ежедневно тестируют 300-400 тысяч жителей. Более того, по данным всемирного сайта Worldometers, который ежедневно публикует статистику по всем странам мира, Украина по количеству ПЦР-тестов на коронавирус на 1 млн населения находится на предпоследнем месте, после Албании. Но опять же — вопрос не в количестве проведенных ПЛР, а в том, какой процент из них положительные. Все стандартные дашборды содержат только тесты на ПЦР, поскольку именно они считаются точным подтверждением. Однако, как признает профессор, абсолютно точно известно, что данные о количестве новых больных не соответствуют фактическому количеству, поскольку не все инфицированные в последнее время делают тесты.

«На сегодня мы даем только общий график по стране. Академия наук использует так называемую балансовую модель, которая берет за основу различные составляющие и смотрит, как они между собой взаимодействуют, учитывая природу явления, и как одно влияет на другое. Я использую статистическую модель. То есть беру одно число, его ряд за год и прогнозирую следующие значения. Собственно говоря, главная особенность моей модели в том, что я пытаюсь отследить влияние праздников на заболеваемость, — уточняет Виталий Мокин. — Например, был День защитника Украины — сделали значительно меньше анализов. Как по мне, это не очень понятно, почему нельзя людям доплатить за работу, нанять еще персонал? Почему нельзя наладить стабильную работу? Почему я, работая бесплатно, в выходные выполняю свою работу, а они за деньги — нет? Мы завязаны на качестве данных, если они приходят с «падением», соответственно ухудшается качество прогноза.

Более того, «хромает» отчетность. Например, один из экспертов нашей Рабочей группы решил сравнить даты регистрации ПЦР-теста и его обнародования (то есть дата регистрации — это когда человек пришел и сделал тест, дата публикации — когда МЗ опубликовал об этом сведения). Мы знаем, что ПЦР-тест делается сутки. Логично предположить, что то, что они написали — это данные за вчера. Ничего подобного! Из графика в нашем отчете видно, что в обнародованных данных процентов 30% результата — это данные вчерашних анализов, еще 30-40% — измерения за последние 2-3 дня, часть данных за неделю назад, еще часть — за две недели до того и даже за месяц. В некоторые даты обнародованные данные содержали сведения о тестах, сделанных летом или даже весной. Хотя это были единичные случаи, но имеем со статистикой и обнародованием вот такой «салат».

«ОДИН ИЗ ФАКТОРОВ ВЫЯВЛЕНИЯ РЕАЛЬНОЙ КАРТИНКИ ЗАБОЛЕВАЕМОСТИ — АНАЛИЗИРОВАТЬ «ИЗБЫТОЧНУЮ» СМЕРТНОСТЬ»

После завершения новогодних Рождественский праздников, по самым оптимистичным сценариям, профессор прогнозирует спад заболеваемости до 2,5 тыс. новых случаев в сутки. Это прежде всего будет связано с малым количеством проведенных тестов из-за уменьшения обращений от людей. Однако количество летальных случаев в процентном соотношении от количества новых больных может возрасти. Показатель летальности Виталий Мокин называет более достоверным, чем инфицированность. Хотя сейчас различные источники указывают данные от 1-2% до 8%, к сожалению, точной информации нет. Более того, даже в этой плоскости повторяется ситуация с ПРЛ-тестами: среди обнародованных данных по смертям «за вчера» есть случаи, зарегистрированные месяц назад. Информация от больницы до обнародования идет месяц, а то и два.

«Медики говорят, что они просто завалены бумажной работой, несмотря на то, что пытаются лечить людей. Одни и те же данные они вынуждены подавать в бумажном виде, в электронном, еще и по телефону. Если больной ковид-положительный — надо еще одну форму заполнять, — рассказывает профессор. — Потому как один из факторов выявления реальной картинки заболеваемости — это анализировать «избыточную» смертность. Сейчас во всем мире применяют такую технологию. Берут статистику по летальным случаям за 5 лет по стране и отдельно по регионам и сравнивают. В отчете нашей Рабочей группы есть такой график, это делается понедельно. Единственное, что у нас официальная статистика идет с опозданием на месяц, что затрудняет использование этих данных для прогнозирования».

Виталий Мокин добавляет: не так давно аналитики Рабочей группы посчитали, что на самом деле смертей, связанных с COVID-19, примерно в три раза больше, чем свидетельствуют ежедневные данные МЗ. Судя по этим данным, на середину декабря было примерно 50 тыс., и каждый день их становится больше примерно на 500. Авторы аналитического исследования не утверждают, что все смерти вызваны COVID-19, но сам факт повышения летальности наталкивает на размышления. Более того, если проанализировать график по избыточной смертности, то существенное повышение заметно именно по тем регионам, где наблюдался значительный рост распространения коронавирусной инфекции. Речь идет, например, о Черновицкой, Львовской и Тернопольской областях. Поэтому советуют не радоваться преждевременно, слыша по телевизору об уменьшении инфицированных и, так сказать, спад эпидемии, потому что за 4-5 тысячами инфицированных, о которых отчитываются, может стоять значительно большее количество людей, которые попадут (а может и нет) в статистику через неделю-другую.

Delimiter 468x90 ad place

Подписывайтесь на свежие новости:

Газета "День"
читать