초록

SMS나 메신저의 사용이 증가함에 따라 의도적으로 음절을 해체한 새로운 형태의 문장들이 젊은이들 사이에서 습관적으로 사용되고 있다. 이러한 상황에서 자연어 인터페이스 시스템을 개발하기 위해서는 해체된 한글 음절을 결합하여 올바른 문장을 만들어 주는 기술이 먼저 개발되어야 한다. 본 논문에서는 해체된 음절을 2단계 규칙을 이용하여 결합해주는 방법을 제안한다. 1단계에서는 수동으로 작성한 휴리스틱을 이용하여 단순하게 초성, 중성, 종성으로만 해체된 음절을 결합한다. 그리고 2단계에서는 매핑 테이블과 변환기반 학습을 이용하여 복자음까지 해체된 음절을 결합한다. 실험 결과, 제안한 방법은 단순 해체 음절의 결합과 복자음 해체 음절의 결합에서 각각 100%와 99.98%라는 매우 높은 정확률을 보였다.

키워드

한글 음절 해체, 한글 자소 결합, 변환기반 학습

참고문헌(9)open

  1. [기타] Black, W. J / 2002 / Language-independent named entity classification by modified transformation-based learning and by decision tree reduction, Proceedings of CoNLL'2002

  2. [학술지] Brill, E / 1995 / Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging / Computational Linguistics 21 (4) : 543 ~ 565

  3. [기타] Brill, E / 1994 / A rule-based approach to prepositional phrase attachment disambiguation, Proceedings of COLING'94

  4. [기타] Kashyap, R. L / 1984 / Spelling correction using probabilistic methods, Pattern Recognition Letters

  5. [기타] Li, M. / 2006 / Exploring distributional similarity based models for query spelling correction, Proceedings of ACL 2006

  6. [기타] Mays, E. / 1991 / Context based spelling correction, Information Processing and Management

  7. [기타] Samuel, K. / 1998 / Dialogue act tagging with transformation-based learning, Proceedings of COLING/ACL'98, 1150-1156

  8. [학술지] 강승식 / 2001 / bigram를 이용한 띄어쓰기 오류의 자동교정 / 음성과학회논문지 8 (2)

  9. [학술대회] 노형종 / 2006 / 띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델 / 제 18회 한글 및 한국어 정보처리 학술대회 논문집