검색엔진이란 무엇인가요?
검색엔진의 개념
검색엔진이란 인터넷상의 정보를 일정한 전략에 따라 수집하고, 그 정보를 정리, 가공하여 사용자에게 검색 서비스를 제공하는 시스템을 말한다. 사용자의 관점에서 보면, 검색 엔진은 검색 상자에 단어를 입력하고 이를 브라우저를 통해 검색 엔진에 제출하면 검색 엔진이 입력한 내용과 관련된 정보 목록을 반환합니다. 사용자. 인터넷 개발 초기에는 야후(Yahoo)로 대표되는 웹사이트 카테고리 디렉토리 쿼리가 매우 인기가 있었습니다. 웹사이트 분류 디렉토리는 수동으로 구성 및 유지 관리됩니다. 인터넷상의 우수한 웹사이트를 선택하고 간략하게 설명하며 여러 디렉토리로 분류합니다. 사용자는 쿼리를 하면 레이어를 클릭하여 원하는 웹사이트를 찾습니다. 어떤 사람들은 이 디렉토리 기반 검색 서비스 웹사이트를 검색 엔진이라고 부르지만 엄밀히 말하면 검색 엔진이 아닙니다.
검색 엔진의 작동 원리
세 부분으로 나눌 수 있습니다.
1. 웹 페이지 크롤링
각각의 독립적인 검색 엔진 자체 웹 크롤러(스파이더)가 있습니다. Spider는 웹 페이지의 하이퍼링크를 따라 지속적으로 웹 페이지를 크롤링합니다. 하이퍼링크의 적용은 인터넷상에서 매우 흔한 일이기 때문에 이론적으로는 일정 범위의 웹 페이지부터 시작하여 대다수의 웹 페이지를 수집할 수 있습니다.
2. 웹페이지 처리
검색 엔진은 웹페이지를 캡처한 후 검색 서비스를 제공하기 전에 많은 전처리 작업을 수행해야 합니다. 그 중 가장 중요한 것은 키워드를 추출하고 인덱스 파일을 생성하는 것입니다. 기타 작업에는 중복된 웹 페이지 제거, 하이퍼링크 분석, 웹 페이지의 중요성 계산 등이 포함됩니다.
3. 검색 서비스 제공
사용자가 검색할 키워드를 입력하면 검색 엔진은 사용자의 편의를 위해 인덱스 데이터베이스에서 키워드와 일치하는 웹 페이지를 찾습니다. 웹페이지 제목 및 URL 또한 웹페이지 요약 및 기타 정보가 제공됩니다.
검색 엔진의 개발 역사
1990년 캐나다 맥길대학교 컴퓨터공학부 교사와 학생들이 Archie를 개발했습니다. 당시에는 월드와이드웹(World Wide Web)이 아직 등장하지도 않았고 사람들은 FTP를 통해 자원을 공유하고 교환했습니다. Archie는 FTP 서버의 파일 이름 정보를 정기적으로 수집 및 분석하고 각 FTP 호스트에서 파일을 찾는 기능을 제공할 수 있습니다. 사용자는 검색할 정확한 파일 이름을 입력해야 하며 Archie는 사용자에게 해당 파일을 다운로드할 수 있는 FTP 서버를 알려줍니다. Archie가 수집하는 정보자원은 웹페이지(HTML파일)는 아니지만, Archie의 기본적인 작업방식은 검색엔진과 동일합니다. 자동으로 정보자원을 수집하고, 색인을 구축하고, 검색 서비스를 제공하는 것입니다. 따라서 Archie는 현대 검색 엔진의 창시자로 인식됩니다.
프로그래머에게 로봇이라는 단어는 특별한 의미를 지닌다. 컴퓨터 로봇은 인간이 도달할 수 없는 속도로 작업을 반복적으로 수행할 수 있는 자동 프로그램을 말합니다. 정보를 검색하는 데 특별히 사용되는 로봇 프로그램은 스파이더처럼 인터넷을 돌아다니기 때문에 검색 엔진 로봇 프로그램을 스파이더 프로그램이라고 합니다.
1993년 매튜 그레이(Matthew Gray)는 HTML 웹 페이지 간의 링크 관계를 사용하여 월드 와이드 웹(World Wide Web)의 크기를 감지하는 최초의 "로봇" 프로그램인 월드 와이드 웹 원더러(World Wide Web Wanderer)를 개발했습니다. 처음에는 인터넷에 있는 서버 수를 세는 데에만 사용되었지만 나중에는 웹 주소(URL)도 캡처할 수 있게 되었습니다.
1994년 4월, 두 명의 스탠포드 대학 박사과정 학생, 중국계 미국인 제리 양(Jerry Yang)과 데이비드 필로***가 야후(Yahoo)를 공동 창립했습니다. 방문 횟수와 포함된 링크 수가 늘어나면서 Yahoo 디렉토리는 간단한 데이터베이스 검색을 지원하기 시작했습니다. Yahoo!의 데이터는 수동으로 입력되기 때문에 진정한 검색 엔진으로 분류될 수 없으며 실제로는 검색 가능한 디렉터리일 뿐입니다. Yahoo는 2002년 12월 23일 Inktomi를 인수했고, 2003년 7월 14일 Fast와 Altavista를 포함한 Overture를 인수했습니다. 2003년 11월 Yahoo는 3721 Company를 완전히 인수했습니다.
1994년 초, 워싱턴 대학의 학생인 브라이언 핑커튼(Brian Pinkerton)은 그의 작은 프로젝트인 WebCrawler를 시작했습니다. WebCrawler가 1994년 4월 20일 공식적으로 출시되었을 때 WebCrawler에는 6,000개 서버의 콘텐츠만 포함되어 있었습니다. WebCrawler는 파일의 전체 텍스트 검색을 지원하는 인터넷 최초의 전체 텍스트 검색 엔진입니다. 이전에는 사용자가 URL과 초록을 통해서만 검색할 수 있었으며, 일반적으로 초록은 수동 주석이나 텍스트의 처음 100단어에서 자동으로 나왔습니다. 프로그램에 의해 검색됩니다.
1994년 7월, 카네기 멜론 대학교의 마이클 몰딘(Michael Mauldin)은 존 리빗(John Leavitt)의 스파이더 프로그램을 그의 색인 프로그램에 연결하여 라이코스(Lycos)를 만들었습니다. 관련성 정렬 외에도 Lycos는 접두사 일치 및 문자 유사성 제한도 제공합니다. Lycos는 검색 결과에서 웹 페이지 자동 요약을 최초로 사용했으며, 가장 큰 장점은 다른 검색 엔진의 데이터 양을 훨씬 초과한다는 것입니다.
1994년 말, 인포시크가 정식으로 데뷔했다. 친숙한 인터페이스와 수많은 추가 기능으로 인해 Lycos와 같은 검색 엔진의 중요한 대표자가 되었습니다.
1995년에 새로운 형태의 검색 엔진이 등장했습니다. 바로 메타 검색 엔진(A Meta Search Engine Roundup)입니다. 사용자는 검색 요청을 한 번만 제출하면 되며 메타 검색 엔진은 변환 처리 및 미리 선택된 여러 독립 검색 엔진에 대한 제출을 담당합니다. 각 독립 검색 엔진에서 반환된 모든 쿼리 결과는 사용자에게 반환되기 전에 중앙 집중화되어 처리됩니다. . 최초의 메타 검색 엔진은 워싱턴 대학의 석사과정 학생인 Eric Selberg와 Oren Etzioni가 만든 Metacrawler였습니다.
1995년 12월 DEC는 공식적으로 AltaVista를 출시했습니다. AltaVista는 자연어 검색을 지원하는 최초의 검색 엔진이자 고급 검색 구문(예: AND, OR, NOT 등)을 구현하는 최초의 검색 엔진입니다. 사용자는 AltaVista를 사용하여 뉴스 그룹(뉴스 그룹)의 콘텐츠를 검색하고 인터넷에서 기사를 얻을 수 있으며, 사진 이름에 있는 텍스트를 검색하고, 제목을 검색하고, Java 애플릿을 검색하고, ActiveX 개체를 검색할 수도 있습니다. AltaVista는 또한 사용자가 웹 인덱스 데이터베이스에 URL을 제출하거나 삭제할 수 있도록 지원하고 24시간 이내에 온라인에 접속할 수 있는 최초의 검색 엔진이라고 주장합니다. AltaVista의 가장 흥미로운 새로운 기능 중 하나는 URL에 대한 링크가 있는 모든 웹사이트를 검색하는 것입니다. AltaVista는 사용자 중심 인터페이스에서도 많은 혁신을 이루었습니다. 사용자가 검색어를 더 잘 표현하는 데 도움이 되는 "팁"을 검색창 영역 아래에 배치하므로, 몇 번 검색하면 사용자는 이전에 알지 못했던 많은 흥미로운 기능을 볼 수 있습니다. 이 일련의 기능은 다른 검색 엔진에서 점차 널리 채택되었습니다. 1997년에 AltaVista는 사용자가 수천 개의 검색 결과에서 원하는 것을 찾을 수 있도록 도와주는 그래픽 프레젠테이션 시스템인 LiveTopics를 출시했습니다.
1995년 9월 26일, 캘리포니아대학교 버클리캠퍼스 조교인 에릭 브루어와 박사과정 학생인 폴 고티에가 잉크토미를 설립했다. , 그리고 강력한 핫봇(HotBot)이 세상 앞에 나타났습니다. 매일 천만 개가 넘는 페이지를 크롤링하고 색인을 생성할 수 있다고 주장하므로 다른 검색 엔진보다 훨씬 더 많은 새로운 콘텐츠가 있습니다. HotBot은 또한 쿠키를 광범위하게 사용하여 사용자의 개인 검색 기본 설정을 저장합니다.
1997년 8월, Northernlight 검색 엔진이 공식적으로 등장했습니다. 가장 큰 데이터베이스를 갖춘 검색 엔진 중 하나였으며 중지 단어가 없었고 뛰어난 최신 뉴스, 7,100개 이상의 출판물로 구성된 특별 컬렉션, 우수한 고급 검색 구문을 갖추고 있으며 간단한 자동 검색 결과 분류를 최초로 지원했습니다.
1998년 10월 이전에 Google은 스탠포드 대학의 소규모 프로젝트인 BackRub에 불과했습니다. 1995년 박사과정 학생 래리 페이지(Larry Page)가 검색 엔진 디자인을 연구하기 시작했고 1997년 9월 15일에 google.com이라는 도메인 이름을 등록했습니다. 1997년 말 Sergey Brin, Scott Hassan, Alan Steremberg의 참여로 BachRub은 시작되었습니다. 데모를 제공합니다. 1999년 2월, 구글은 알파 버전에서 베타 버전으로의 전환을 완료했습니다. 구글은 1998년 9월 27일을 창립일로 인식하고 있습니다. Google은 페이지 순위(Pagerank)를 기준으로 웹페이지의 중요성을 결정하며, 이는 검색 결과의 관련성을 크게 향상시킵니다. Google의 괴짜 문화와 Don't Be Evil 철학은 Google의 높은 평판과 브랜드 평판을 얻었습니다. 2006년 4월, Google은 비영어권 국가에서 Google의 첫 번째 이름인 "Google"이라는 중국어 이름을 발표했습니다.
Fast(Alltheweb)는 1997년 노르웨이 과학기술대학교(NTNU) 학술 연구의 부산물로 설립되었습니다. 1999년 5월에는 자체 검색 엔진인 AllTheWeb을 출시했습니다. Fast의 창립 목표는 세계에서 가장 크고 빠른 검색 엔진이 되는 것이며, 지난 몇 년 동안 그 목표에 근접해 왔습니다.
Fast (Alltheweb)의 웹 검색은 ODP를 사용하여 자동 분류, Flash 및 PDF 검색 지원, 다국어 검색 지원, 뉴스 검색, 이미지 검색, 비디오, MP3 및 FTP 검색도 제공하며 매우 강력한 고급 검색 기능을 제공합니다. 기능. (2003년 2월 25일 Fast의 인터넷 검색 사업부가 Overture에 인수되었습니다.)
소후컴퍼니는 1996년 8월 중국 웹사이트 카탈로그 제작을 위해 설립됐다. 한때 '외출할 때 지도를 찾고, 인터넷으로 소후를 검색한다'는 평판을 얻었던 회사다. 인터넷 웹사이트의 급속한 증가로 인해 이러한 종류의 수동 편집 분류 디렉터리는 더 이상 적합하지 않습니다. Sohu는 2004년 8월에 독립적인 도메인 이름 검색 웹사이트인 "Sogou"를 출시하여 스스로를 "3세대 검색 엔진"이라고 불렀습니다.
오픈파인드는 1998년 1월 설립됐다. 그 기술은 대만 국립중성대학교 우셩 교수가 이끄는 GAIS 연구소에서 유래됐다. 오픈파인드는 중국 검색 엔진으로 출발해 전성기에는 시나(Sina), 키모(Qimo), 야후(Yahoo) 등 유명 포털 3곳에 중국 검색 엔진을 제공하기도 했다. 그러나 2000년 이후에는 점차 바이두(Baidu)와 구글(Google)로 시장이 양분됐다. 2002년 6월 오픈파인드는 GAIS30 프로젝트를 기반으로 오픈파인드 검색 엔진 베타 버전을 다시 출시하고, 폴리랭크(PolyRankTM)를 출시해 총 35억 개의 웹페이지를 크롤링했다고 발표하며 영어 검색 분야에 진출하기 시작했다.
2000년 1월, 하이퍼링크 분석 특허 발명자이자 전 Infoseek 수석 엔지니어였던 Robin Li와 그들의 친구 Xu Yong(버클리 캘리포니아 대학 박사후 연구원) 두 명의 북경 대학 동창이 설립했습니다. 베이징 중관촌의 바이두. Baidu.com 검색 엔진 베타 버전은 2001년 8월에 출시되었습니다(이전 Baidu는 Sohu, Sina, Tom 등 다른 포털에만 검색 엔진을 제공했습니다). Baidu 검색 엔진은 2001년 10월 22일에 공식 출시되었습니다. 중국어 검색에서 Baidu 검색 엔진의 다른 기능으로는 Baidu 스냅샷, 웹 페이지 미리보기/모든 웹페이지 미리보기, 관련 검색어, 오타 수정 팁, mp3 검색 및 플래시 검색이 있습니다. 2002년 3월 Blitzen 프로젝트가 시작된 이후 기술 업그레이드가 크게 가속화되었습니다. 이후에는 Tieba, Zhizhiba, Maps, Chinese Studies, Encyclopedia 등 일련의 제품이 출시되어 네티즌들 사이에서 큰 인기를 얻었습니다. 2005년 8월 5일 발행가 27.00달러, 코드명 BIDU로 나스닥에 상장되었습니다. 개장 가격은 USD 66.00이며 마감 가격은 USD 122.54로 353.85% 상승해 5년 만에 미국 주식 시장에 상장된 신주 일일 최고 증가율 기록을 세웠습니다.
2003년 12월 23일, 원래의 회총 검색이 공식적으로 독립적으로 운영되어 중국 검색을 설립했습니다. 2004년 2월, China Search는 데스크톱 검색 엔진인 Internet Pig 1.0을 출시했습니다. 2006년 3월, China Search는 Internet Pig의 이름을 IG(Internet Gateway)로 변경했습니다.
2005년 6월, Sina는 자체 개발한 검색 엔진인 "Aiwen"을 공식 출시했습니다.