'색인기법'에 해당되는 글 1건

  1. 2007/07/18 [누구나 알고있는]N-Gram 방식의 색인기법
N-Gram 방식

1) 문서의 모든 어절들을 추출한다.

빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다.


2)불용어를 삭제한다.

불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 삭제한다.


3) 나머지 어절에서 비색인분절들을 삭제한다.

비색인 분절은 단일 조사( -가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 어미, 접미사 등이 결합된 다양한 형태의 음절 들을 포함한다.


4) 나머지 색인 분절을 N-gram들로 분할하여 색인어로 설정한다.

N-Gram방법이란 인접한 N개의 음절을 말한다. 예를 들면 '잡학사전'에 대한 2-gram은 '잡학', '학사', '사전'이다.

5) 가중치를 설정한다.

의미 없는 N-gram의 생성으로 인해 질의에 부적합한 문서들이 검색될 가능성이 있으므로, 각각의 단어에 가중치를 부여한다.


덧붙여

색인이라는 것은 검색엔진에서 검색 대상이 되는 문서 SET에서 유의미한 키워드를 뽑아서 색인어로 정한 뒤에 출현빈도나 출현위치, 출현문서 정보등을 색인어에 담고 색인어별로 소팅하여 데이터 SET을 만드는 작업이다.

문서에서 어떤 것이 색인어이고 아니고를 구분하기 위해서 사용하는 대표적인 방법이 N-Gram방식이다.



 마루날의 雜學辭典(잡학사전)을 RSS리더로 편하게 구독해서 보세요~

TRACKBACK :: http://ithelink.net/trackback/111 관련글 쓰기

BLOG main image
마루날의 雜學辭典
소셜미디어 성과분석/효과측정, Social Intelligence, Opinion Mining, 웹오피스, 클라우드에 억수로 관심 많음. 신사업기획 및 론칭 전문, 전략기획, 사업기획, 분석, Sales 잘해요. 책읽기, 등산 좋아해요. 잠실, 올림픽공원 자주 가요. 모든 비린내 싫어요. YO~
by 마루날

카테고리

분류 전체보기 (494)
Business (108)
소셜미디어 (60)
클라우드 (8)
Mobile (11)
정보검색 (104)
Management (28)
독서일기 (140)
Etc. (35)

마루날's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.