초록

본 논문에서는 한국어 대화체 문장에서 빈번하게 등장하는 한국어 영형 주어 복원을 위해 기계학습 방법론을 적용하였다. 한국어 영형 주어는 한국어와 같은 주제 지향 언어에서 독일어와 같은 주어 지향 언어로 번역할 때 반드시 해소되어야만 하는 현상이다. 따라서 한국어 영형 주어 해소는 한국어를 출발 언어로 하고 독일어를 목표 언어로 하는 기계 번역 시스템에서 필수적이다. 이를 위해 우리는 기계 학습을 위한 총 12개의 자질을 제안하였는데, 이는 문장 내 등장하는 동사의 형태론적 정보를 반영하고(f1~f3, f6~f8), 주관 그리고 객관 형용사의 등장 유무와 관련된 자질(f4, f5)에 관한 것이었으며 또한 센터링 이론을 반영하여 담화 내의 정보와 관련된 자질(f9~f12)도 제안하였다. 우리가 제안한 자질들을 사용하여 한국어 영형 주어 해소의 성능을 평가하기 위해 실험을 한 결과 89.3%의 정확도가 측정되었으며, 이는 베이스라인에 비해 약 16%가 향상된 결과였다. 현재 구축한 코퍼스에는 각 정답 주어 유형의 빈도수에 차이가 있다. 실험 결과 코퍼스 내 빈도수가 높은 정답 주어들이 기계학습 방법론에서 정확도가 높게 분류됐다. 따라서 향후 모든 정답 주어 유형에 대한 빈도수를 유사하게 조정하고 더 큰 규모의 코퍼스를 수집하여 본 논문에서 제안한 방법론을 다시 적용해보고자 한다.

키워드

대용어해소, 영형대명사, 영형주어, 기계번역, 기계학습

참고문헌(35)open

  1. [단행본] 노대규 / 1996 / 한국어의 입말과 글말 / 국학자료원

  2. [단행본] 목정수 / 2003 / 한국어 문법론 / 월인

  3. [단행본] 유현경 / 1998 / 국어형용사연구 / 한국문화사

  4. [학술지] 정연주 / 2010 / ‘-어 하-’와 통합하는 객관형용사의 의미 특성 / 한국어 의미학 33 : 297 ~ 319

  5. [단행본] 최재웅 / 1999 / 초점 - 형식의미론과 한국어 기술 / 한신문화사

  6. [학술지] 홍문표 / 2011 / 한-독 대화체 기계번역을 위한 주어생략현상의 처리방안 / 독어학 (24) : 417 ~ 439

  7. [학술지] 홍민표 / 2000 / 센터링 이론과 대화체에서의 논항 생략 현상 / 인지과학 11 (1) : 9 ~ 24

  8. [학술대회] Baldwin, B. / 1997 / CogNIAC: high precision coreference with limited knowledge and linguistic resources / Proceedings of a Workshop on Operational Factors in Practical, Robust Anaphora Resolution for Unrestricted Texts : 38 ~ 45

  9. [학술대회] Brennan, S. E. / 1987 / A centering approach to pronouns / Proceedings of the 25th annual meeting on Association for Computational Linguistics : 155 ~ 162

  10. [학술대회] Carbonell, J. G. / 1988 / Anaphora resolution: a multi-strategy approach / Proceedings of the 12th conference on Computational linguistics-Volume 1 : 96 ~ 101

  11. [학술대회] Connolly, D. / 1997 / Machine learning approach to anaphoric reference / International Conference on New Methods in Language Processing : 33 ~ 144

  12. [단행본] Dahl, D. A. / 1990 / Chapter 8 in Logic and Logic Grammars for Language Processing / Ellis Horwood : 168 ~ 184

  13. [학술지] Grosz, B. J. / 1995 / Centering: A framework for modeling the local coherence of discourse / Computational linguistics 21 (2) : 203 ~ 225

  14. [학술대회] Grosz, B. J. / 1983 / Providing a unified account of definite noun phrases in discourse / Proceedings of the 21st Annual Meeting of the Association for Computational Linguistics : 44 ~ 50

  15. [단행본] Hirst, G. / 1981 / Anaphora in Natural Language Understanding: A Survey. Lecture Notes in Computer Science / Springer Verlag

  16. [단행본] Hutchins, W. J. / 1992 / An introduction to machine translation (Vol. 362) / Academic Press

  17. [학술대회] Isozaki, H. / 2002 / Efficient support vector classifiers for named entity recognition / Proceedings of the 19th international conference on Computational linguistics-Volume 1 : 168 ~ 184

  18. [학술대회] Kameyama, M / 1986 / A property-sharing constraint in centering / Proceedings of the 24th annual meeting on Association for Computational Linguistics : 200 ~ 206

  19. [단행본] Kameyama, M. / 1994 / Quantifiers, Deduction, and Context / CSLI

  20. [학술대회] Kameyama, M / 1997 / Intrasentential centering: A case study / Proceedings of the Workshop on Centering Theory in Naturally Occurring Discourse, Institute for Research in Cognitive Science : 89 ~ 112

  21. [학술대회] Kazuhide, Y. / 1998 / Feasibility study for ellipsis resolution in dialogues by machine-learning technique / Proceedings of the 17th international conference on Computational linguistics-Volume 2 : 1428 ~ 1435

  22. [학술대회] Kudo, T. / 2001 / Chunking with support vector machines / Proceedings of the second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies : 1 ~ 8

  23. [학술지] Lappin, S. / 1994 / An algorithm for pronominal anaphora resolution / Computational linguistics 20 (4) : 535 ~ 561

  24. [학술대회] Lee, S. H. / 1994 / Annotations for Zero Pronoun Resolution in Korean Using the Penn Korean Treebank / The 3rd Workshop on Treebanks and Linguistic Theories (FLT 2004) : 75 ~ 88

  25. [학술대회] Manabu, O. / 1996 / Zero pronoun resolution in Japanese discourse based on centering theory / Proceedings of the 16th conference on Computational linguistics-Volume 2 : 871 ~ 876

  26. [학술대회] Mitkov, R. / 1994 / An integrated model for anaphora resolution / Proceedings of the 15th conference on Computational linguistics-Volume 2 : 1170 ~ 1176

  27. [단행본] Mitkov, R. / 1998 / Mathematical and computational analysis of natural language / John Benjamins Publishers : 207 ~ 222

  28. [학술대회] Nakaiwa, H / 1995 / Intrasentential resolution of Japanese zero pronouns in a Machine Translation system using semantic and pragmatic constraints / Proceedings of the International Conference on Theoretical and Methodological Issues in Machine Translation (TMI'95) : 96 ~ 105

  29. [학술대회] Nakaiwa, H. / 1996 / Anaphora resolution of Japanese zero pronouns with deictic reference / Proceedings of the 16th conference on Computational linguistics-Volume 2. Association for Computational Linguistics : 812 ~ 817

  30. [학위논문] Sidner, C. L. / 1979 / Towards a Computational Theory of Definite Anaphora Comprehension in English Discourse

  31. [단행본] Sidner, C. / 1986 / Readings in Natural Language Processing / Morgan Kaufmann Publishers Inc. : 363 ~ 394

  32. [단행본] Stys, M. E. / 1995 / Recent Advances in NLP / Velingrad/BG

  33. [학술대회] Walker, M. / 1990 / Mixed initiative in dialogue: An investigation into discourse segmentation / Proceedings of the 28th annual meeting on Association for Computational Linguistics : 70 ~ 78

  34. [학술지] Walker, M. / 1994 / Japanese discourse and the process of centering / Computational linguistics 20 (2) : 193 ~ 232

  35. [학술대회] Walker, M. / 1990 / Centering in Japanese discourse / COLING90: In Proceedings of the 13th International Conference on Computational Linguistics : 1 ~ 8