검색엔진이란 무엇이며 어떻게 작동하나요?
1. 검색엔진이란 무엇인가요?
인터넷에는 수백억 개의 공개 웹 페이지가 있습니다. 심지어 가장 열성적인 웹페이지를 방문하는 사람이라도 그 중 일부만 방문할 수는 없습니다. 이 광대한 웹 바다의 한 구석에 있습니다. 물론 당신의 존재를 광고할 수 있고, 몸에 큰 글자로 URL을 새기고 알몸으로 백악관 잔디밭을 가로질러 걸을 수도 있지만, 미디어가 바로 그 자리에서 지켜보고 있는지 확인해야 합니다. 이렇게 하는 대신 검색 엔진의 작동 방식을 더 잘 이해하는 것이 어떨까요? "키워드"(키워드)를 선택하고 사용하는 방법 등.
이 문서의 목적은 많은 페이지 디자이너가 검색 엔진에 대한 이해를 바탕으로 검색 엔진이 반환하는 목록에서 자신의 페이지 순위를 높이는 방법을 찾을 수 있도록 하는 것입니다.
'검색엔진'이라는 용어는 일반적으로 진정한 검색엔진(즉, 전체 텍스트 검색엔진)과 디렉토리(즉, 카탈로그형 검색엔진)를 지칭합니다. 다르며 차이점은 반환된 검색 결과 목록이 구성되는 방식에 있습니다.
1. 디렉터리
디렉터리(예: Yahoo!)에서 반환된 목록은 수동으로 정렬됩니다.
이 유형의 엔진은 카테고리별로 수동으로 정리된 웹사이트 디렉토리를 제공하며, 각 카테고리 아래에 이 카테고리에 속하는 웹사이트의 사이트 이름과 URL 링크가 정렬되고 일부 요약 정보가 기록되어 개요를 제공합니다. 웹사이트 간단한 소개(요약은 귀하가 제출한 것일 수도 있고, 엔진 사이트 편집자가 귀하의 사이트에 대해 작성한 평가일 수도 있습니다). 사람들은 검색을 할 때 해당 카테고리의 디렉토리를 기준으로 검색을 합니다.
이 유형의 엔진에는 텍스트 입력 상자와 버튼을 제공하는 웹사이트 검색이라고도 하는 웹사이트 쿼리 기능이 함께 제공되는 경우가 많습니다. 텍스트 상자에 찾고 있는 단어, 단어 또는 문구를 입력한 후 버튼을 클릭하면 해당 웹사이트 이름, URL 및 콘텐츠 요약이 디렉토리에서 검색되고 찾은 콘텐츠 목록이 전송됩니다. 위에. 현재 국내 소후, 아이비 등 모두 이 검색 방식을 사용하고 있다.
2. 검색 엔진
검색 엔진(예: HotBot)은 자동으로 목록을 생성합니다.
검색 엔진은 디렉토리의 웹사이트 쿼리와 매우 유사해 보이며 텍스트 입력 상자와 버튼도 제공하며, 일부는 분류된 디렉토리도 제공하지만 본질적인 차이점이 있습니다. 둘.
디렉터리 데이터베이스에서 수집 및 저장되는 것은 검색 엔진 데이터베이스의 사이트 이름, URL 및 각 웹 사이트의 콘텐츠 요약이며, 수집 및 저장되는 것은 전체 콘텐츠입니다. 각 웹사이트의 각 웹페이지의 범위는 훨씬 더 넓습니다.
검색 엔진은 전체 텍스트 검색을 통해 작동합니다. 전체 텍스트 검색으로 찾은 결과는 사이트 이름, URL, 내용 요약이 아니라, 입력한 키워드와 관련된 웹페이지 주소와 짧은 텍스트 단락입니다. 이 텍스트에는 입력한 키워드가 없거나 특정 웹페이지의 첫 문단만 있을 수도 있고, 이해하기 어려운 태그일 수도 있지만, 이 웹페이지에는 입력한 키워드나 관련 단어가 있어야 합니다. 예를 들어, 웹사이트 쿼리를 통해 "Wenhui Po" 및 "Ta Kung Pao"와 같이 온라인에서 사용할 수 있는 신문을 찾을 수 있고, 전체 텍스트 검색을 통해 이러한 온라인 신문의 각 기사에 포함된 어휘를 찾을 수 있습니다.
3. 두 가지를 결합한 검색 엔진
일부 검색 엔진에서는 디렉토리도 제공합니다. 검색 엔진에 포함된 디렉토리는 일반적으로 품질이 더 높으며 거기에서 좋은 사이트를 많이 찾을 수 있습니다. 사이트를 제출하더라도 디렉토리에 추가된다는 보장은 없기 때문에 이미 다른 디렉토리에 존재하는 사이트에 초점을 맞추고 자체 디렉토리에 매력적인 추가 항목을 선택적으로 찾습니다.
검색 엔진과 디렉토리 각각에는 대체할 수 없는 고유한 기능이 있습니다. 디렉토리는 비교적 간단합니다. 좋은 순위를 얻으려면 좋은 콘텐츠가 포함된 고품질 사이트를 만들기 위해 열심히 노력하는 것 외에는 다른 방법이 없습니다.
검색 엔진은 훨씬 더 복잡하며 언제든지 많은 웹 사이트의 최신 웹 페이지를 자동으로 색인화하므로 디렉토리에서 사용할 수 없는 정보를 찾는 경우가 많습니다. 페이지를 변경하면 검색 엔진은 항상 변경 사항을 확인하고 목록에서 위치를 재정렬합니다. 카탈로그는 그렇게 할 수 없습니다. 다음은 검색 엔진의 작동 방식과 검색 엔진 목록에서 순위를 높이는 방법에 대해 설명합니다.
참고 자료: /cpc/buildweb/search101.htm
다양한 정보 수집 방법과 서비스 제공 방법에 따라 검색 엔진 시스템은 크게 세 가지 범주로 나눌 수 있습니다.
1. 디렉토리 검색 엔진: 편집자는 정보를 검토한 후 수동으로 정보 요약을 작성하고 해당 정보를 미리 결정된 분류 체계에 배치합니다. 대부분의 정보는 웹사이트 중심으로 디렉토리 검색 서비스와 직접 검색 서비스를 제공합니다. 이러한 유형의 검색 엔진은 인간의 지능을 통합하기 때문에 정확한 정보와 고품질 탐색 기능을 갖추고 있으며 수동 개입이 필요하고 유지 관리가 많이 필요하며 정보량이 적고 적시에 정보를 업데이트하지 않는다는 단점이 있습니다. 방법. 이러한 유형의 검색 엔진의 대표자는 Yahoo, LookSmart, Open Directory, Go Guide 등입니다.
2. 로봇 검색 엔진: 스파이더라는 로봇 프로그램은 인터넷에서 특정 전략에 따라 자동으로 정보를 수집하고 검색하며, 검색자는 사용자의 쿼리 입력에 따라 색인을 검색하여 쿼리 결과를 반환합니다. 사용자. 서비스 방법은 웹페이지에 대한 전문 검색 서비스입니다. 이러한 유형의 검색 엔진의 장점은 많은 양의 정보, 시기적절한 업데이트, 수동 개입이 필요 없다는 것입니다. 단점은 관련 없는 정보를 포함하여 너무 많은 정보가 반환되고 사용자가 결과에서 필터링해야 한다는 것입니다. 이러한 유형의 검색 엔진의 대표자는 AltaVista, Northern Light, Excite, Infoseek, Inktomi, FAST, Lycos 및 Google이며, 국내 대표자는 "Skynet", Youyou, OpenFind 등입니다.
3. 메타 검색 엔진: 이 유형의 검색 엔진에는 자체 데이터가 없으며 대신 사용자의 쿼리 요청을 여러 검색 엔진에 동시에 제출하고 반환된 결과를 반복적으로 제외하고 재정렬한 후 해당 결과를 사용자에게 반환합니다. 결과. 서비스 방법은 웹 페이지에 대한 전체 텍스트 검색입니다. 이러한 유형의 검색 엔진의 장점은 결과에 반환되는 정보가 더 크고 더 완전하다는 것입니다. 단점은 사용된 검색 엔진의 기능을 완전히 사용할 수 없으며 사용자가 더 많은 필터링을 수행해야 한다는 것입니다. 이러한 유형의 검색 엔진의 대표자는 WebCrawler, InfoMarket 등입니다.
......
주요 기술
검색 엔진은 검색기, 인덱서, 검색기, 사용자 인터페이스의 네 부분으로 구성됩니다.
1. 검색자
검색자의 기능은 인터넷을 돌아다니며 정보를 발견하고 수집하는 것입니다. 밤낮으로 실행되는 컴퓨터 프로그램인 경우가 많습니다. 다양한 유형의 새로운 정보를 가능한 한 빨리 수집해야 합니다. 동시에 인터넷의 정보는 매우 빠르게 업데이트되므로 연결 끊김 및 유효하지 않은 정보를 피하기 위해 수집된 오래된 정보를 정기적으로 업데이트해야 합니다. 사이. 현재 정보 수집에는 두 가지 전략이 있습니다.
● 일련의 시작 URL에서 시작하여 이러한 URL의 하이퍼링크(하이퍼링크)를 따라가며 너비 우선, 깊이 우선 또는 깊이 우선 방식으로 컬렉션을 반복합니다. 휴리스틱 방식으로 인터넷에서 정보를 검색합니다. 이러한 시작 URL은 모든 URL이 될 수 있지만 Yahoo!와 같이 많은 링크가 포함된 매우 인기 있는 사이트인 경우가 많습니다.
● 도메인 이름, IP 주소, 국가 도메인 이름에 따라 웹 공간을 구분하고 각 검색자는 하위 공간에 대한 철저한 검색을 담당합니다.
검색자가 수집하는 정보의 유형은 HTML, XML, 뉴스그룹 기사, FTP 파일, 워드 프로세싱 문서, 멀티미디어 정보 등 다양합니다.
검색기 구현에서는 정보 검색 및 업데이트 속도를 높이기 위해 분산 및 병렬 컴퓨팅 기술을 사용하는 경우가 많습니다.
상업용 검색 엔진을 통한 정보 검색은 하루에 수백만 개의 웹 페이지에 도달할 수 있습니다.
2. 인덱서
인덱서의 기능은 검색자가 검색한 정보를 이해하고, 그 정보에서 인덱스 항목을 추출하여 문서를 표현하고 인덱스 테이블을 생성하는 것입니다. 문서 라이브러리의.
색인 항목에는 객관적인 색인 항목과 콘텐츠 색인 항목이라는 두 가지 유형이 있습니다. 객관적인 항목은 작성자 이름, URL, 업데이트 시간, 인코딩, 길이 등 문서의 의미론적 콘텐츠와 아무 관련이 없습니다. , 링크 인기도(Link Popularity) 등 콘텐츠 인덱스 항목은 키워드 및 해당 가중치, 문구, 단어 등과 같은 문서 콘텐츠를 반영하는 데 사용됩니다. 콘텐츠 인덱스 항목은 단일 인덱스 항목과 다중 인덱스 항목(또는 구문 인덱스 항목)의 두 가지 유형으로 나눌 수 있습니다. 영어의 경우 단일 색인 항목은 영어 단어이므로 단어 사이에 자연스러운 구분 기호(공백)가 있으므로 추출이 더 쉽습니다. 중국어와 같이 연속적으로 쓰여지는 언어의 경우 단어를 분할해야 합니다.
검색 엔진에서는 일반적으로 단일 색인 항목에 가중치를 부여하여 색인 항목에 의한 문서의 식별 정도를 나타내며, 쿼리 결과의 관련성을 계산하는 데에도 사용됩니다. 일반적으로 사용되는 방법에는 통계적 방법, 정보 이론 방법 및 확률 방법이 포함됩니다. 구문 색인 항목을 추출하는 방법에는 통계적 방법, 확률적 방법, 언어적 방법이 있다.
인덱스 테이블은 일반적으로 어떤 형태의 반전 목록(Inversion List)을 사용하는데, 즉 색인 항목으로 해당 문서를 찾는다. 인덱스 테이블에는 크롤러가 인덱스 항목 간의 인접성 또는 근접 관계(근접성)를 계산할 수 있도록 문서에서 인덱스 항목이 나타나는 위치도 기록할 수 있습니다.
인덱서는 중앙 집중식 색인 알고리즘 또는 분산 색인 알고리즘을 사용할 수 있습니다. 데이터의 양이 많을 경우 즉각적인 인덱싱을 구현해야 하며, 그렇지 않으면 정보량의 급격한 증가를 따라잡을 수 없습니다. 인덱싱 알고리즘은 인덱서 성능(예: 대규모 피크 쿼리 중 응답 속도)에 큰 영향을 미칩니다. 검색 엔진의 효율성은 주로 색인의 품질에 따라 달라집니다.
3. 검색기
검색기의 기능은 사용자의 쿼리에 따라 인덱스 데이터베이스에 있는 문서를 빠르게 확인하고, 문서와 쿼리의 관련성을 평가하고, 출력될 결과를 정렬하고 일종의 사용자 관련성 피드백 메커니즘을 구현합니다.
검색자에게 일반적으로 사용되는 정보 검색 모델에는 집합론 모델, 대수 모델, 확률 모델, 하이브리드 모델의 네 가지가 있습니다.
4. 사용자 인터페이스
사용자 인터페이스의 기능은 사용자 쿼리를 입력하고 쿼리 결과를 표시하며 사용자 관련성 피드백 메커니즘을 제공하는 것입니다. 주요 목적은 사용자가 검색 엔진을 사용하고 효율적이고 다양한 방법으로 검색 엔진으로부터 효과적이고 시기적절한 정보를 얻을 수 있도록 하는 것입니다. 사용자 인터페이스의 설계 및 구현은 인간의 사고 습관에 완전히 적응하기 위해 인간-컴퓨터 상호 작용의 이론과 방법을 사용합니다. 사용자 입력 인터페이스는 간단한 인터페이스와 복잡한 인터페이스의 두 가지 유형으로 나눌 수 있습니다.
간단한 인터페이스는 사용자가 쿼리 문자열을 입력할 수 있는 텍스트 상자만 제공합니다. 복잡한 인터페이스를 사용하면 사용자는 논리 연산(AND, OR, NOT; , -), 근접 관계(인접 관계)와 같은 쿼리를 제한할 수 있습니다. , NEAR ), 도메인 이름 범위(.edu, .com 등), 표시 위치(제목, 내용 등), 정보 시간, 길이 등 일부 회사와 기관은 현재 쿼리 옵션에 대한 표준 개발을 고려하고 있습니다.