검색 엔진 수직 세분화란 무엇입니까? 현재 상태는 어떤가요? 요점은 무엇입니까?
분야별 검색은 특정 업종을 위한 전문 검색 엔진으로, 검색 엔진의 세분화이자 확장으로, 웹 라이브러리에 있는 특정 유형의 전문 정보를 통합하여 대상 분야에서 필요한 정보를 추출합니다. 데이터는 처리되어 어떤 형태로든 사용자에게 반환됩니다.
종형 검색엔진과 일반 웹 검색엔진의 가장 큰 차이점은 웹페이지 정보의 구조화된 정보 추출, 즉 웹페이지의 비정형 데이터를 검색이 사용하는 웹페이지와 같은 특정 구조화된 정보 데이터로 추출하는 것입니다. 웹 페이지를 최소 단위로 사용하고, 시각적 기반 웹 페이지 블록 분석은 웹 페이지 블록을 최소 단위로 사용하며, 수직 검색은 구조화된 데이터를 최소 단위로 사용합니다. 그런 다음 이러한 데이터는 중복 제거, 분류 등과 같은 추가 처리를 위해 데이터베이스에 저장되고 마지막으로 사용자 요구 사항을 충족하기 위한 단어 분할, 색인화 및 검색이 수행됩니다.
전체 과정에서 데이터는 비정형 데이터에서 정형 데이터로 추출되며, 심층 처리를 거쳐 비정형 방식과 정형 방식으로 사용자에게 반환됩니다.
종합 검색 엔진은 기업 도서관 검색, 수요 공급 정보 검색 엔진, 쇼핑 검색, 부동산 검색, 인재 검색, 지도 검색, MP3 검색, 이미지 검색 등 다양한 응용 방향을 가지고 있습니다. 모든 계층 및 유형 정보는 다양한 유형의 수직 검색 엔진으로 더욱 정제될 수 있습니다.
쇼핑 검색 엔진과 같은 예를 들면 이해하기가 더 쉬울 것입니다. 전체 프로세스는 대략 다음과 같습니다. 웹 페이지를 크롤링한 후 웹 페이지에서 제품 정보를 추출하고, 제품명, 가격, 소개... 심지어 노트북 프로필을 "브랜드, 모델, CPU, 메모리, 하드 디스크, 디스플레이 화면..."으로 더 세분화할 수 있으며 그런 다음 정보를 정리, 중복 제거, 분류할 수 있습니다. 분석, 비교, 데이터 마이닝을 통해 최종적으로 단어분할지수를 통해 사용자 검색 및 검색이 가능하며, 분석 및 마이닝을 통해 시장상황 리포트를 제공합니다.
종합 검색 엔진에는 일반적으로 다음 기술이 필요합니다.
1. 거미
2. 웹페이지 구조정보 추출 기술 또는 메타데이터 수집 기술
3. 단어 분할 및 색인화
4. 기타 정보 처리 기술