четверг, 28 февраля 2013 г.

Второе заседание кружка эпидмоделирования в ЦНИИОИЗ

Форма для регистрации на кружок

На прошедшем 28 февраля 2013 заседании кружка С.С. Сошников сделал доклад о методах добычи данных (Data Mining), включающих логистическую регрессию, деревья принятия решений, нейронные сети и метод частичных наименьших квадратов и другие. Данный подход математического моделирования был использован автором для изучения факторов, которые оказывают существенное влияние на ряд изучаемых социально-значимых показателей здоровья общества. Представлены модели показателей трех болезней, в том числе заболеваемости (а по сути - выявляемости) алкоголизма на 1000 населения, числа абортов на 1000 женщин в возрасте 15-49 лет и смертности детей в возрасте до 1 года, в качестве зависимых переменных. 
Материалами исследования явились  данные Федеральной службы государственной статистики России. В общей сложности собрано 130 переменных из разных опубликованных сборников Росстата за десять лет с 2000 по 2009 год. Для сбора данных разработана исследовательская база данных SEIPH (Social-Economics Interference & Public Health), которая содержит более 100 000 наблюдений на уровне региона России. Стандартизированные переменные базы данных SEIPH охватывают широкий спектр социально-экономических характеристик субъектов России и могут быть разделены на пять групп: 
1 – Заболеваемость, распространенность болезней и причины смертности населения; 2 - Социальная инфраструктура и служба здравоохранения; 3 – Экономика, деньги, доходы; 4 – Демографические показатели; 5 – Внешние и связанные с алкоголем факторы.

Мощный инструмент Enterprise Miner для интеллектуального анализа данных компании SAS позволил построить многофакторные модели на больших данных официальной статистики России.  На основании критерия среднеквадратической ошибки, выбраны лучшие из построенных прогностические модели. Например распространенность легальных абортов лучше всего отразила логистическая регрессия, где окончательная модель состоит из 14 значимых признаков со скорректированным R² 80,85%. Коэфициент, который свидетельствует о сильнейшей связи показателя частоты абортов  с экономическим кластером, внешними факторами и алкоголем. Среди факторов, которые имеют значимое влияние на зависимую переменную - географические факторы, осложнения беременности, число врачей и больничных коек, демографические факторы, уровень продаж водки и потребления чистого алкоголя, валовой региональный продукт и доходы населения,  уровень развития образовательной инфраструктуры.
В представленном исследовании проведена попытка измерить влияние внешних ассоциированных факторов на несколько болезней, с помощью интеллектуального метода моделирования, применительно к данным официальной статистики, на уровне регионов России.

На практическом занятии по SAS мы разобрали раздел
"ВВОД ДАННЫХ И МАНИПУЛЯЦИЯ С НИМИ".
 Домашнее задание на 14 марта:
Прочитать и попробовать самостоятельно в SAS пройденный урок:
- Выполнить домашнее задание:
На следующем практическом занятии будем разбирать Графику в SAS.
- Ссылка на учебник: http://pubhealth.spb.ru/SASDIST/GraphCon.htm

- Напоминаем о возможности изучения программы SAS по видео-роликам в Youtube.
Ссылка на 14 обучающих модулей: http://www.youtube.com/playlist?list=PL7CB9B66A2F4FB9B3
- Пожалуйста зарегистрируйтесь в этой форме для Кружка: https://docs.google.com/forms/d/1nC60I_eL6bQh7-dcYaHrDG0xI1KOuJY-pfWOfaoM7Xg/viewform

У кружка есть новостной Твиттер: @EpidModel

Комментариев нет:

Отправить комментарий