데이터 마이닝이란 무엇인가요?

데이터 마이닝은 대규모 데이터 세트를 분류하여 데이터 분석을 통해 추세와 패턴을 파악하고 관계를 구축하여 비즈니스 문제를 해결하는 자동화된 프로세스를 말합니다. 즉, 데이터 마이닝은 대량의 불완전하고, 시끄럽고, 모호하고, 무작위적인 데이터로부터 그 안에 내재되어 있고 사람들이 미리 알지 못하지만 잠재적으로 유용한 정보와 지식을 추출하는 프로세스입니다.

원칙적으로 데이터 마이닝은 데이터베이스, 데이터 웨어하우스, 데이터 마트, 트랜잭션 데이터베이스, 공간 데이터베이스(예: 지도)와 같은 모든 유형의 정보 저장소 및 임시 데이터(예: 데이터 스트림)에 적용될 수 있습니다. ) 등), 엔지니어링 설계 데이터(건축 설계 등), 멀티미디어 데이터(텍스트, 이미지, 비디오, 오디오), 네트워크, 데이터 흐름, 시계열 데이터베이스 등 이로 인해 데이터 마이닝은 다음과 같은 특징을 갖습니다.

(1) 데이터 세트가 크고 불완전합니다.

데이터 마이닝에 필요한 데이터 세트는 법칙에 가까울수록 매우 큽니다. 실제 법률이 정확할수록 결과가 더 정확해집니다. 그렇지 않으면 데이터가 불완전한 경우가 많습니다.

(2) 부정확성

데이터 마이닝에는 부정확성이 있으며, 이는 주로 시끄러운 데이터로 인해 발생합니다. 예를 들어, 비즈니스에서 사용자는 공장 환경에서 잘못된 데이터를 제공할 수 있으며, 정상적인 데이터는 종종 전자기 또는 방사선 간섭을 받고 정상 값을 초과합니다. 절대 나타날 수 없는 이러한 비정상적인 데이터를 노이즈라고 하며 이는 데이터 마이닝의 부정확성을 초래합니다.

(3) 퍼지 및 무작위

데이터 마이닝은 퍼지적이고 무작위입니다. 여기서 모호함은 부정확성과 연관될 수 있습니다. 부정확한 데이터로 인해 데이터 전체를 관찰하는 것만 가능하거나 관련된 개인정보로 인해 일부 특정 콘텐츠를 얻는 것이 불가능합니다. 이때 관련 분석 작업을 수행하려는 경우에만 가능합니다. 일반적으로 일부 분석은 정확하게 판단할 수 없습니다.

데이터의 무작위성에 대한 두 가지 설명이 있습니다. 하나는 얻은 데이터가 무작위라는 것입니다. 두 번째는 분석 결과가 무작위라는 점이다. 판단과 학습을 위해 데이터가 기계에 넘겨지면 모든 작업은 회색 상자 작업입니다.

上篇: JD.com의 30일 무이자 혜택은 무엇을 의미하나요? 下篇: 헬스 링 설치가 끝나면 어떻게 들어가나요?