DOI QR코드

DOI QR Code

A study on multiple imputation modeling for Korean EAPS

경제활동인구조사 자료를 위한 다중대체 방식 연구

  • Received : 2021.05.12
  • Accepted : 2021.07.25
  • Published : 2021.10.31

Abstract

The Korean Economically Active Population Survey (KEAPS) is a national survey that produces employment-related statistics. The main purpose of the survey is to find out the economic activity status (employed/ unemployed/ non-employed) of the people. KEAPS has a unique characteristics caused by the survey method. In this study, through understanding of structural non-response and utilization of past data, we would like to present an improved imputation model. The performance of the proposed model is compared with the existing model through simulation. The performance of the imputation models is evaluated based on the degree of mathing/nonmatching rates. For this, we employ the KEAPS data in November 2019. For the randomly selected ones among the total 59,996 respondents, the six explanatory variables, which are critical in determining the economic activity states, are treated as non-response. The proposed model includes industry variable and job status variable in addition to the explanatory variables used in the precedent research. This is based on the linkage and utilization of past data. The simulation results confirm that the proposed model with additional variables outperforms the existing model in the precedent research. In addition, we consider various scenarios for the number of non-responders by the economic activity status.

경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.

Keywords

Acknowledgement

본 연구는 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. NRF- 2019R1I1A3A01059886).

References

  1. Bae Y (2020). Multiple Imputation for missing data in the economically active population survey(Chungbuk National University Thesis).
  2. Park MJ, Hong Y, and Kim J (2020). Multiple Imputation for Korean EAP, Statistics Research Institute, Statistics Korea.
  3. Raghunathan TE, Lepkowski JM, Hoewyk JV, and Solenberger P (2001). A multivariate technique for multiply imputing missing values using a sequence of regression models, Survey Methodology, 27, 85-95.
  4. Rubin DB (1987). Multiple Imputation for Nonresponse in Surveys, John Wiley and Sons, New York.
  5. Schafer JL, Ezzati-Rice TM, Johnson W, Khare M, Little RJA, and Rubin DB (1996). The NHANES III Multiple Imputation Project, JSM 1996.
  6. Van Buuren S and Groothuis-Oudshoorn CGM (2011). mice: multivariate imputation by chained equations in R, Journal of Statistical Software, 45.