한국어 정보학

한국학전문출판 Since 1964

회사소개 공지사항 자료실 우수학술도서

크게보기 축소

| 경인한국학연구총서 145 |
한국어 정보학: 남경란南京蘭 저; 정가:27,000원; 판매가:27,000원; 상태:판매중; 출판사:경인문화사; 바인딩:양장; 책 크기:152 x 224mm(A5신); 쪽수:332쪽; 출간일:2017년 8월 20일; ISBN:9788949942919

책 소개: 이 책은 옛 문헌 자료를 대상으로 하여 연구하는 연구자들이 자신의 연구에 필요한 어휘, 혹은 어절, 구문 등등을 연구자들이 원하는 자료에서 따로 가려내고 뽑아 다양한 연구에 활용할 수 있도록 원문을 전산처리하는 방법과 연구자의 육안으로 식별하기 어렵거나 확인되지 않는 문자와 부호들을 확인할 수 있는 영상처리를 활용한 정보 처리법을 소개한 것이다.

한국어의 전산학 처리를 위해서는 형태소, 단어, 어절, 구, 문장 등 한국어의 각 문법 단위의 목록을 획득하고, 각 문법 단위들의 분포와 기능을 체계적으로 정리하는 일이 뒷받침되어야 한다. 이 일은 다양한 언어 자료를 검토함으로써 가능한데, 이러한 목적으로 만들어진 언어 자료의 집합을 말뭉치라고 한다. 그러나 단순히 여러 가지의 자료들을 모아 놓거나 배열해 놓았다고 해서 좋은 말뭉치가 되는 것은 아니다. 좋은 말뭉치란 각 연구자, 혹은 정보를 필요로 하는 이의 구미에 맞게 가공되어 있을 때 가장 좋은 말뭉치가 되는 것이다. 특히 국어학에서 필요로 하는 말뭉치는 언어의 변화 양상과 다양한 특성을 제공해 줄 수 있도록 전산 처리된 말뭉치일 것은 두 말할 나위 없다.

현재 국어학계에서는 세종사업의 말뭉치와 국립국어연구원에서 구축한 말뭉치, 그리고 한국과학기술원, 고려대학교, 연세대학교 등에서 구축한 방대한 양의 말뭉치를 이용하고 있다. 오류 검증에 관한 언급은 남겨두더라도 이들 말뭉치들이 전산학, 또는 정보 처리학에 유용한 인코딩(encoding)으로 처리되어 있어 사전 편찬이나 언어학, 음성학 등의 통계 수치나 검색 정보 추출 등 양적 자료 분석에 주로 사용되고 있다.

그런데 옛 문헌 자료, 또는 국어사 연구에서 이러한 통계 수치나 검색 정보 추출 등의 양적 자료 분석도 중요하지만 실질적으로 요구되는 정보는 이보다 훨씬 정밀하고 세밀한 질적 자료 분석이 필요한 것들이 훨씬 더 많이 요구된다. 가령, 말뭉치 속에서 특정 어휘와 원문의 한자 대응, 혹은 구문과 한자 원문의 병행 배열, 방점 처리 정보, 탈각 및 오각 정보, 시간적 변화를 동반한 정보, 어휘 변화를 동반한 정보 등등이 그것이다. 그러나 이미 상당한 시간과 재원을 들여 구축한 원시 말뭉치를 다시 주석 말뭉치로 구축하는 일은 결코 쉽거나 만만한 일이 아니다. 주석 말뭉치로 구축하기 위해서는 말뭉치를 구축하는 자가 주석을 완벽하게 할 수 있는 자, 즉 상당한 수준의 연구력을 지닌 자라야 한다는 점이 전제될 때 가능한 일이다. 그러므로 옛 문헌 자료, 또는 국어사 연구를 위해서는 원시 말뭉치를 구축할 당시부터 원문 입력의 오류를 최소화함과 동시에 질적 연구가 가능하도록 말뭉치를 구축하는 것이 마땅하다.

필자는 이와 같은 질적 자료 분석을 위한 정보 처리 방법을 끊임없이 고민해 왔으며 그 결과 2001년부터 현재까지 약 20여 편의 논저들을 통해 그 방안을 지속적으로 모색해 왔다. 이에 그 정보 처리 기법들을 이 책을 통해 여러 연구자들에게 소개하고자 한 것이다.

이 책은 크게 한국어 자료의 전산 처리’, ‘말뭉치 구축과 활용’, ‘영상처리를 활용한 정보 처리’라는 3가지 정보 처리법으로 나누어져 있다. 이러한 정보 처리 기법을 토대로 기술된 책은 1장에서 정보와 정보 처리와 정보 처리 프로그램을 중심으로 한국어 정보학의 기초에 대해 설명하였다. 2장에서는 형태소 분석 말뭉치의 구조와 한국어 자료와 말뭉치 가공을 중심으로 전산 형태론과 말뭉치에 대해 논의하였다. 3장에서는 중세한국어 연구를 위한 전산 처리 방법과 음운현상 교육을 위한 전산 처리 방법, 그리고 사회방언 연구를 위한 전산 처리 방법 등 여러가지 한국어 자료의 전산 처리 방안을 소개하고자 노력하였다. 4장에서는 원문과 어휘 빈도 산출 말뭉치 구축 방법과 한국어의 통시적 말뭉치 구축과 활용, 그리고 연구자 중심의 말뭉치 구축과 활용법 등 연구자가 원하는 방향으로의 말뭉치를 구축하고 이를 활용하는 방법을 체계적으로 제시하였다. 5장에서는 한컴오피스 한글을 활용한 정보 처리 기법과 Window 그림판을 활용한 정보 처리 기법, Adobe Photoshop을 활용한 정보 처리 기법, 영상 처리 장비를 활용한 정보 처리 기법 등 영상처리를 활용한 정보 처리법에 대해 소개하였다. 특히 5장의 내용들은 필자가 처음으로 공개하는 정보 처리법으로 최근 학계에서 해결하지 못했던 각필 문자 및 부호들을 밝히는 데 사용했던 정보 처리법이기도 하다. 마지막으로 이들 전산 처리 기법과 정보 처리 기법을 활용하여 학계에 발표했던 논문 세 편을 부록으로 함께 실어 정보 처리 기법의 실전을 옛 문헌 자료 연구자들에게 소개하고자 하였다.

이 책이 나오기까지 많은 분들의 도움을 받았다. 학문에 입문하고부터 지금까지, 수많은 자료 제공과 조언을 아끼지 않으시는 남권희 선생님과 학문적으로 무척 부족했던 시기에 제자로 거두워 길러 주셨던 학부 선생님들께 감사의 말씀을 드린다. 그리고 힘들고 어려웠던 말뭉치구축 과정들을 함께 견뎌 왔던 후배 교수 김남경 선생과 영상 장비 활용 정보 처리의 기법을 제공해 준 한국생산기술원의 선임연구원 김형태 선생님께도 감사 드린다. 특히 이 책은 대구가톨릭대학교와 경인문화사의 지원이 없었다면 나올 수 없었다. 대구가톨릭대학교 2012년 교내연구비의 지원을 받았으며, 전문서적이 아님에도 불구하고 기꺼운 마음으로 출판을 할 수 있도록 추천과 지원을 아끼지 않은 경인문화사 김환기 총괄이사님과 한정희 사장님께 사의를 표한다. 또한 책이 제 모습을 찾을 수 있도록 많은 배려를 해 주신 편집부팀에게도 감사드린다. 끝으로 언제나 함께 있어 마음의 곁이 되어 준 누군가에게 진심으로 감사의 뜻을 전한다.

목차: 머리말

Ⅰ. 한국어 정보학의 기초
정보와 정보 처리
한국어 정보 처리

Ⅱ. 전산 형태론과 말뭉치
형태소 분석 말뭉치의 구조
한국어 자료와 말뭉치 가공

Ⅲ. 한국어 자료의 전산 처리
중세한국어 연구를 위한 전산 처리
음운현상 교육을 위한 전산 처리
사회방언 연구를 위한 전산 처리

Ⅳ. 말뭉치 구축과 활용
원문과 어휘 빈도 산출 말뭉치 구축
한국어의 통시적 말뭉치 구축과 활용
연구자 중심의 말뭉치 구축과 활용

Ⅴ. 영상처리를 활용한 정보 처리법
한컴오피스 한글을 활용한 정보 처리
Window 그림판을 활용한 정보 처리
Adobe Photoshop을 활용한 정보 처리
영상 검사 장비를 활용한 정보 처리

참고문헌

부 록
■ 부록 [1] 새 資料, 初雕大藏經南禪寺本 <四分律藏第三分> 卷四十의 角筆에 대하여
■ 부록 [2] 11세기 초조대장경 <四分律藏第三分>의 각필 부호 분석
■ 부록 [3] 동해안 어촌 지역어의 사회언어학적 연구
-영덕, 울진, 삼척, 강릉을 중심으로

저: 남경란南京蘭: 경북 울릉 출생
대구가톨릭대학교 국어국문학과 졸업
대구가톨릭대학교 대학원 문학석사
대구가톨릭대학교 대학원 문학박사
영남대학교 민족문화연구소 상임연구원(역임)
영남대학교 민족문화연구소 전문연구교수(역임)
대구가톨릭대학교 한국어문학부 교수(현재)

주요 논저
｢국어사 연구를 위한 국어정보 처리법｣(2003)
｢여말선초 음독 입겿[구결]의 종합적 고찰｣(2005) 
｢여말선초 음독 입겿[구결] 자형과 기능의 통시적 고찰｣(2009) 
｢한글 창제 전후의 입겿[구결] 연구｣(2016)
｢중세한국어 연구를 위한 전산 처리 방안｣(2003)
｢사회방언 자료의 전산 처리에 대하여｣(2003)
｢국어의 시간적 데이터베이스 구축과 활용｣(2004)
｢동해안 어촌 지역어의 사회언어학적 연구｣(2004)
｢중세국어 음운현상의 교육 방안｣(2009)
｢15세기 문헌 자료의 전산화-연구자 중심 말뭉치 구축 및 활용｣(2014) 등 50여 편

(10881) 경기도 파주시 회동길 445-1 경인빌딩 B동 4층
TEL : 031-955-9300 FAX : 031-955-9310
사업자번호 : 105-16-29512
E-mail : [javascript protected email address]