데이터 마이닝이란 그 기능과 응용 프로그램을 간략하게 설명합니다.
데이터 마이닝은 데이터베이스, 데이터 웨어하우스 또는 기타 일반 프로세스에 저장된 대량의 데이터로부터 효과적이고 새롭고 잠재적으로 유용하며 궁극적으로 이해할 수 있는 패턴을 얻는 비표준 방법입니다. 1) 데이터 마이닝은 다음과 같은 7가지 작업(분석 방법)을 수행할 수 있습니다. 데이터 마이닝 · 분류 · 추정 · 예측 · 유사성 그룹화 또는 연관 규칙(Affinity grouping or 연관 규칙) · 집계(Clustering) · 설명 및 시각화 · 복합 데이터 유형 마이닝 (텍스트, 웹, 그래픽 이미지, 비디오, 오디오 등) 2) 데이터 마이닝 분류 위의 7가지 데이터 마이닝 분석 방법은 두 가지 범주로 나눌 수 있습니다: 직접 데이터 마이닝; 간접 데이터 마이닝 · 직접 데이터 마이닝의 목표는 다음과 같습니다. 사용 가능한 데이터를 사용하여 나머지 데이터와 특정 변수(데이터베이스의 테이블, 즉 열의 속성으로 이해될 수 있음)를 설명하는 모델을 구축합니다. · 간접 데이터 마이닝: 대상은 특정 변수를 선택하고 이를 모델로 설명하는 대신 모든 변수 간에 특정 관계가 설정됩니다. · 분류, 평가, 예측은 직접 데이터 마이닝에 속하며, 마지막 3개는 간접 데이터 마이닝에 속합니다. 3) 다양한 분석 방법 소개 · 분류(Classification) 먼저 데이터에서 카테고리로 분류된 훈련 세트를 선택합니다. 분류되지 않은 데이터를 분류하기 위한 분류 모델을 구축하는 마이닝 분류 기술입니다. 예: a. 저위험, 중위험, 고위험으로 분류된 신용카드 신청자 b. 결함 진단: 중국 Baosteel 그룹은 Shanghai Tianlu Information Technology Co., Ltd.와 협력하여 데이터 마이닝 기술을 사용하여 전체 철강의 품질을 모니터링하고 분석합니다. 생산과정에서 실시간으로 불량 지도를 구축하고, 제품 불량 원인을 분석하여 제품의 품질률을 효과적으로 향상시킵니다. 참고: 클래스 수가 결정되고 사전 정의됩니다. 추정 추정은 분류와 유사합니다. 차이점은 분류가 이산형 변수의 출력을 설명하는 반면 추정은 연속 값의 출력을 처리한다는 것입니다. 분류 데이터 마이닝의 범주 수는 확실합니다. 그러나 추정 금액은 불확실하다. 예: a. 구매 패턴을 기반으로 한 가족의 자녀 수 추정 b. 구매 패턴을 기반으로 한 가족의 소득 추정 c. 부동산 가치 추정 일반적으로 평가는 분류의 예비 단계로 사용될 수 있습니다. 일부 입력 데이터가 주어지면 추정을 통해 알 수 없는 연속변수의 값을 구한 후 미리 설정된 임계값에 따라 분류합니다. 예를 들어, 은행은 주택대출 사업에 대한 평가를 사용하고 각 고객에게 점수(점수 0~1)를 할당합니다. 그런 다음 기준점에 따라 대출 등급이 분류됩니다. · 예측 일반적으로 예측은 분류 또는 평가를 통해 작동합니다. 즉, 분류 또는 평가를 통해 모델을 도출하고 모델을 사용하여 알려지지 않은 변수를 예측합니다. 이런 의미에서 예언은 실제로 별도의 범주로 분류될 필요가 없습니다. 예측의 목적은 미래에 알려지지 않은 변수를 예측하는 것입니다. 이러한 종류의 예측은 검증하는 데 시간이 걸립니다. 즉, 예측의 정확성을 알기 위해서는 일정 기간이 필요합니다. 예: 하이난 항공은 선도적인 데이터 마이닝 도구인 Markway Analysis System을 도입하여 승객 흐름, 연료 등의 변화 추세를 분석하고 노선 수익을 주제로 데이터 마이닝을 수행하며 정교한 판매 전략을 수립하여 기업 수익을 효과적으로 향상시켰습니다. · 유사성 그룹화 또는 연관 규칙은 어떤 일이 함께 일어날지 결정합니다.
예: a. 슈퍼마켓에서 고객이 A를 구매하는 경우 B를 동시에 구매하는 경우가 많습니다. 즉, A =gt B(연관 규칙) b. 고객은 A를 구매한 후 일정 기간 후에 B를 구매합니다. 분석) · 집계( 클러스터링: 클러스터링은 레코드를 그룹화하여 유사한 레코드를 클러스터에 배치하는 것입니다. 집계와 분류의 차이점은 집계는 미리 정의된 클래스에 의존하지 않으며 훈련 세트가 필요하지 않다는 것입니다. 예: a. 일부 특정 증상의 집계는 특정 질병을 나타낼 수 있습니다. b. 서로 다른 유형의 VCD를 임대하는 고객의 집계는 구성원이 서로 다른 하위 문화 그룹에 속한다는 것을 암시할 수 있습니다. 예를 들어 "어떤 유형의 프로모션이 고객에게 가장 잘 반응합니까?"라는 질문의 경우 먼저 전체 고객을 집계하고 고객을 각각의 클러스터로 그룹화한 다음 각 클러스터에 대한 질문에 대답하면 효과가 더 좋습니다. c. China Mobile은 고급 데이터 마이닝 도구인 Markway Analysis System을 사용하여 사용자의 WAP 인터넷 행동에 대한 클러스터 분석을 수행하고 고객 그룹화를 통해 정확한 마케팅을 수행합니다. · 설명 및 시각화(Description and Visualization) 출처: Netjie.com 포럼 데이터 마이닝 결과를 표현하는 방법입니다.