컴퓨터 지식 네트워크 - 컴퓨터 프로그래밍 - 전체 텍스트 검색이란 무엇입니까?

전체 텍스트 검색이란 무엇입니까?

외모 특성보다는 문학의 내용을 주요 내용으로 검색하는 텍스트, 사운드, 이미지 등의 데이터를 사용하는 검색 기술입니다.

시스템은 TRS 시스템 ·Tianyu 시스템 등이 있습니다.

다른 검색 엔진과 비교하여 전체 텍스트 검색 엔진의 특징은 텍스트 내 의미 있는 단어를 검색 항목으로 사용할 수 있다는 것입니다. 얻은 검색 결과는 문헌의 단서가 아닌 원본 문서입니다.

컴퓨터 산업이 발전하면서 점점 더 많은 전자 정보가 컴퓨터 저장 장치에 저장됩니다. 정형 데이터와 비정형 데이터는 기업 재무계좌 및 생산 데이터, 학생 성적 데이터 등을 의미하며, 비정형 데이터는 일부 텍스트 데이터, 이미지, 사운드, 기타 멀티미디어 데이터 등을 의미합니다. 통계에 따르면 비정형 데이터가 전체 정보량의 80% 이상을 차지합니다. 구조화된 데이터는 RDBMS(관계형 데이터베이스 관리 시스템) 기술로 관리하는 것이 현재로서는 가장 좋은 방법이다. 그러나 RDBMS 자체의 기본 구조로 인해 대량의 비정형 데이터를 관리하는 데에는 몇 가지 본질적인 결함이 있는 것으로 보이며, 특히 이러한 대규모 비정형 데이터를 쿼리하는 속도가 느립니다. 이러한 비정형 데이터는 전문 검색 기술을 통해 효율적으로 관리할 수 있습니다.

수년간의 개발 끝에 전체 텍스트 검색은 초기 문자열 매칭 프로그램에서 대용량 텍스트, 음성, 이미지, 동영상 등 비정형 데이터를 종합적으로 관리할 수 있는 대규모 소프트웨어로 진화했습니다. 의미와 표시의 심오한 변화로 인해 전문 검색 시스템은 차세대 경영 정보 시스템과 동의어가 되었으며 전문 검색 시스템을 측정하기 위한 기본 지표는 점차 표준화되었습니다.

우선, 특정 검색을 수행할 때 시스템 데이터베이스에 있는 관련 데이터의 총량 대비 시스템에서 검색된 관련 데이터의 비율인 재현율에 중점을 둡니다. 정확도는 가장 유용한 정보를 찾는 데 중요한 요소로, 특정 검색을 수행할 때 시스템이 검색한 유용한 정보의 양과 검색된 정보의 총량의 비율입니다. 검색 속도 또는 응답 시간은 작업 효율성 향상을 보장합니다. 검색 주제를 제출하고 데이터 결과를 찾는 데 걸리는 시간을 말합니다. 가장 기본적인 검색 속도는 '수천만 한자, 2급 응답'이 되어야 한다. 포함 범위(검색 범위), 사용자 부담(사용자가 검색 과정에서 소비한 에너지의 총량), 출력 형식(출력 정보 표현 형식) 등의 지표도 전체 텍스트 검색 시스템의 품질.

검색 엔진은 전체 텍스트 검색 기술의 가장 중요한 응용 프로그램이어야 합니다. 현재, 검색 엔진의 사용은 이메일 전송 및 수신에 이어 두 번째로 큰 인터넷 응용 기술이 되었습니다. 검색 엔진은 전통적인 전체 텍스트 정보 검색 이론에서 유래했습니다. 즉, 컴퓨터 프로그램이 각 기사의 모든 단어를 스캔하고 단어 단위로 순위 파일을 생성합니다. 검색 프로그램은 각 기사에 나타나는 검색어의 빈도를 기반으로 합니다. 기사와 각 검색어가 기사에 나타날 확률을 계산하여 해당 검색어가 포함된 기사를 정렬하고 최종적으로 정렬된 결과를 출력합니다. 전문 검색 기술은 검색 엔진의 핵심 지원 기술이다.

좋은 검색 엔진은 이상적인 사이트의 핵심입니다. 많은 사람들이 사이트를 방문할 때 사이트 검색을 선호합니다. 사이트 검색은 다음 측면을 포함하여 카테고리 탐색과 전체 텍스트 검색의 완벽한 조합이어야 합니다.

카테고리 탐색의 핵심은 검색 범위입니다. 범위 제한은 검색 결과가 너무 많고 과도한 것을 방지할 수 있습니다.

전체 텍스트 검색은 사이트 검색에 필수적이며 일반적인 상황에서는 사람들이 원하는 웹 페이지를 빠르게 찾는 데 도움이 될 수 있습니다.

p>

카테고리 디렉토리 탐색과 전체 텍스트 검색을 사용하여 필요한 정보를 찾는 것이 어려운 경우가 있습니다. 이 경우 검색 지원을 결합해야 합니다.

관련 정렬 기능. 검색결과가 너무 많으면 사용자가 하나씩 찾아볼 수 없기 때문에 필요합니다. 대부분의 사용자는 관련 정렬 없이 처음 몇 가지 항목만 찾아볼 수 있으며, 정확한 검색결과는 사용자가 볼 수 없는 경우가 있습니다. , 전면의 검색 결과는 관련성이 거의 없어 사용자에게 혼란을 야기합니다.

또한 HTML/XML의 특수성, 다수의 동시 사용자에 의한 갑작스런 액세스 지원, 웹 사이트의 동적 특성, 높은 인덱스 유지 관리 효율성에 대한 요구 사항도 고려해야 합니다.

현재 기술 구현에는 Lucene, Solr, ElasticSearch 등이 포함됩니다.

전문 검색 과정은 인덱싱(indexing)과 검색(search) 두 가지 과정으로 나누어진다:

인덱싱

관계형 데이터베이스, 인터넷, 파일 등에서 소스 데이터(검색 대상 정보)를 수집한다. 시스템, 소스 데이터의 소스는 매우 광범위합니다.

소스 데이터를 스토리지 시스템 등 통일된 장소에 수집하여 인덱스를 생성하려면 인덱스 라이브러리(파일 시스템)에 인덱스를 생성하고 소스 데이터베이스에서 핵심 정보를 추출합니다. 핵심 정보에서 단어를 하나씩 추출하면 해당 단어가 원본 데이터와 관련됩니다. 즉, 색인을 생성할 때 해당 단어가 원본 데이터와 연관되어 있고, 이 연관성이 색인 데이터베이스에 기록되어 있으면 해당 단어가 발견되면 원본 데이터(http 웹페이지, 전자책, 뉴스 등)을 찾았습니다.

검색

사용자는 검색(전체 텍스트 검색)을 수행하고 쿼리 키워드를 작성합니다.

인덱스 데이터베이스에서 인덱스를 검색하고, 쿼리 키워드를 기준으로 인덱스 데이터베이스의 각 단어를 검색합니다.

검색결과를 표시합니다.

上篇: 마더 보드 사다리 下篇: HTC G10 라이선스 수입과 병행수입의 얽힘에 대해...
관련 내용