DOI QR코드

DOI QR Code

Predicting the number of disease occurrence using recurrent neural network

순환신경망을 이용한 질병발생건수 예측

  • Received : 2020.06.23
  • Accepted : 2020.07.07
  • Published : 2020.10.31

Abstract

In this paper, the 1.24 million elderly patient medical data (HIRA-APS-2014-0053) provided by the Health Insurance Review and Assessment Service and weather data are analyzed with generalized estimating equation (GEE) model and long short term memory (LSTM) based recurrent neural network (RNN) model to predict the number of disease occurrence. To this end, we estimate the patient's residence as the area of the served medical institution, and the local weather data and medical data were merged. The status of disease occurrence is divided into three categories(occurrence of disease of interest, occurrence of other disease, no occurrence) during a week. The probabilities of categories are estimated by the GEE model and the RNN model. The number of cases of categories are predicted by adding the probabilities of categories. The comparison result shows that predictions of RNN model are more accurate than that of GEE model.

본 논문에서는 건강보험심사평가원에서 제공한 약 120만명의 2014년 고령환자의료자료(HIRA-APS-2014-0053)과 기상자료를 일반화추정방정식(generalized estimating equation; GEE) 모형과 long short term memory (LSTM) 기반 순환신경망(recurrent neural network; RNN) 모형으로 분석하여 기상 조건에 따른 주요 주상병의 발생 빈도를 예측한다. 이를 위해 환자가 의료 서비스를 받은 기관의 지역을 이용하여 환자의 거주지를 추정하고 해당 지역의 주별 기상 관측소 자료와 의료자료를 병합하였다. 질병 발생 상태를 세 개의 범주(질병에 걸리지 않음, 관심 주상병 발생, 다른 질병 방생)로 나누었으며 각 범주에 속할 확률을 GEE 모형과 RNN 모형으로 추정하였다. 각 범주별 발생 건수는 해당 범주의 속할 추정확률의 합으로 계산하였으며 비교분석결과 RNN을 이용한 예측이 GEE를 이용한 예측보다 정확도가 높은 것으로 나타났다.

Keywords

References

  1. Ballester, F., Michelozzi, P., and Iniquez, C. (2003). Weather, climate, and public health, Journal of Epidemiology & Community Health, 57, 759-760. https://doi.org/10.1136/jech.57.10.759
  2. Basu, R. and Samet, J. M. (2002). Relation between elevated ambient temperature and mortality, A Review of the Epidemiologic Evidence, 24, 190-202. https://doi.org/10.1093/epirev/mxf007
  3. Diggle, P., Heagerty, P., Liang, K. Y., and Zeger, S. L. (2002). Analysis of Longitudinal Data (2nd ed), Oxford University Press, Oxford.
  4. Hardin, J. W. and Hilbe, J. M. (2003). Generalized Estimating Equations, Chpman & Hall/CRC, FL.
  5. Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory, Neural Computation, 9, 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
  6. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. In Proceedings of the National Academy of Sciences of the United States of America, 79, 2554-2558. https://doi.org/10.1073/pnas.79.8.2554
  7. Touloumis, A., Agresti, A., and Kateri, M. (2013). Generalized estimating equations for multinomial responses using a local odds ratio parameterization, Biometrics, 69, 633-640. https://doi.org/10.1111/biom.12054
  8. 안혜연, 정주희, 김채희, 윤진아, 김현수, 오인보, 이지호, 원경미, 이영미, 김유근 (2016). 학술논문 분석을 통한 기상민감질환 선정 및 기상 인자와의 관련성 고찰, 한국환경과학회 2016년 정기학술대회 발표논문집, 25, 839-851.
  9. 주영수(2008). 기후변화와 건강, 대한내과학회지, 75, 489-491.