Spider 프로그램이란 무엇입니까
Spider (WebCrawler 또는 Robot 이라고도 함) 는 링크를 따라 웹 문서 컬렉션을 로밍하는 프로그램입니다. 일반적으로 서버에 상주하며 주어진 URL 을 통해 HTTP 와 같은 표준 프로토콜을 사용하여 해당 문서를 읽은 다음 문서에 포함된 액세스되지 않은 모든 URL 을 새 시작점으로 사용하여 조건을 충족하지 않는 새 URL 이 나올 때까지 로밍을 계속합니다. WebCrawler 의 주요 기능은 인터넷의 각 웹 사이트에서 웹 문서를 자동으로 수집하고 웹 문서를 설명하는 정보를 추출하여 검색 엔진 사이트의 데이터베이스 서버에 데이터를 추가하고 업데이트하는 원시 데이터를 제공하는 것입니다. 이 데이터에는 제목, 길이, 파일 작성 시간, HTML 파일의 다양한 링크 수 등
1. 검색 정책
① IP 주소 검색 정책
< P > 이 먼저 파충류에게 시작 IP 를 부여한다. 장점은 검색이 포괄적이며 다른 문서에서 참조하지 않는 새 문서의 정보 소스를 찾을 수 있다는 것입니다. 단점은 대규모 검색에 적합하지 않다는 것이다.② 깊이 우선 검색 정책
깊이 우선 검색은 개발 파충류 초기에 더 많이 사용하는 방법입니다. 검색 구조의 리프 노드 (즉, 하이퍼링크가 포함되지 않은 HTML 파일) 를 달성하기 위한 것입니다. HTML 파일에서 하이퍼링크를 선택하면 연결된 HTML 파일이 깊이 우선 검색을 수행합니다. 즉, 나머지 하이퍼링크 결과를 검색하기 전에 개별 체인을 완전히 검색해야 합니다. 깊이 우선 검색은 HTML 파일의 하이퍼링크를 따라 더 이상 드릴 다운할 수 없을 때까지 이동한 다음 HTML 파일로 돌아가서 해당 HTML 파일의 다른 하이퍼링크를 계속 선택합니다. 더 이상 선택할 수 있는 다른 하이퍼링크가 없으면 검색이 끝난 것입니다. 장점은 웹 사이트 또는 깊게 중첩된 문서 모음을 트래버스할 수 있다는 것입니다. 단점은 웹 구조가 상당히 깊기 때문에 일단 들어가면 다시는 나오지 않는 상황이 발생할 수 있다는 것이다.
③ 너비 우선 검색 정책
너비 우선 검색에서 한 웹 페이지의 모든 하이퍼링크를 먼저 검색한 후 맨 아래까지 다음 계층을 계속 검색합니다. 예를 들어, 하나의 HTML 파일에 세 개의 하이퍼링크가 있습니다. 그 중 하나를 선택하고 해당 HTML 파일을 처리한 다음 두 번째 HTML 파일의 하이퍼링크를 더 이상 선택하지 않고 돌아가서 두 번째 하이퍼링크를 선택하고 해당 HTML 파일을 처리한 다음 돌아가서 세 번째 하이퍼링크를 선택하고 해당 HTML 파일을 처리합니다. 한 레이어의 모든 하이퍼링크를 선택하면 방금 처리한 HIML 파일에서 나머지 하이퍼링크를 검색할 수 있습니다. 이것은 얕은 층의 첫 번째 처리를 보장한다. 무궁무진한 심층분기를 만날 때 WWW 에 빠진 심층문서에 빠져나올 수 없는 상황이 발생하지 않는다. 너비 우선 검색 전략의 또 다른 장점은 두 HTML 파일 간에 최단 경로를 찾을 수 있다는 것입니다. 너비 우선 검색 전략은 일반적으로 파충류를 구현하는 가장 좋은 전략입니다. 이는 구현하기 쉽고 원하는 대부분의 기능을 갖추고 있기 때문입니다. 그러나 지정된 사이트 또는 깊게 중첩된 HTML 파일 세트를 트래버스하려는 경우 폭 우선 검색 정책을 사용하면 심층 HTML 파일에 도달하는 데 시간이 오래 걸립니다. 이러한 몇 가지 전략과 국내 정보 탐색 시스템 검색 정보의 특징을 종합적으로 고려해 볼 때, 국내에서는 일반적으로 너비 우선 검색 전략을 위주로 하고 선형 검색 전략을 보조하는 검색 전략을 채택하고 있다. 참조되지 않거나 거의 참조되지 않는 일부 HTML 파일의 경우 너비 우선 검색 정책에서 이러한 고립된 정보 소스가 누락될 수 있으며 선형 검색 정책을 보완할 수 있습니다.
④ 전문 검색 엔진의 파충류 정책
현재 전문 검색 엔진 웹 파충류는 일반적으로 "최고의 우선 순위" 원칙을 사용하여 웹에 액세스합니다. 즉, 더 많은 주제 관련 페이지 ("보상") 를 빠르고 효율적으로 얻을 수 있습니다. 링크는 페이지에 포함되어 있고, 일반적으로 높은 가치를 가진 페이지에는 높은 가치를 지닌 링크가 포함되어 있기 때문에 링크 가치에 대한 평가도 페이지 가치에 대한 평가로 변환되는 경우가 있습니다.
< P > ⑤ 파충류 설계에서 주의해야 할 문제
< P > 첫 번째 문제는 URL 주소의 표준화입니다. WWW 에서 URL 주소는 IP 주소 또는 도메인 이름으로 여러 가지 방법으로 나타낼 수 있습니다. 파충류가 같은 주소를 두 번 방문하는 것을 방지하기 위해서. 두 번째 문제는 네트워크 트랩에 빠지지 않도록 하는 것입니다. 네트워크의 링크 상황은 비교적 복잡하며 일부 정적 웹 페이지는 폐쇄 루프 루프를 형성할 수 있습니다. 파충류가 순환 경로에서 반복적으로 잡히지 않도록 URL 을 검색할 주소 목록에 추가하기 전에 검색할 주소 목록에 이미 나타나는지 확인해야 합니다. 동적 웹 페이지의 경우 파충류는 매개 변수가 있는 모든 URL 을 무시해야 합니다. 세 번째 질문: 액세스가 거부된 페이지의 경우 파충류는 "로밍 액세스 거부 규칙" 을 준수해야 합니다.