인공지능, 머신러닝, 딥러닝의 차이점은 무엇인가요?
머신러닝이 지난 몇 년 동안 점점 더 대중화되었다는 것은 의심의 여지가 없습니다. 빅데이터는 현재 기술 산업에서 가장 뜨거운 트렌드이기 때문에 머신러닝은 매우 강력하며 대량의 데이터를 기반으로 예측이나 계산적 추론을 할 수 있습니다.
기계 알고리즘을 배우고 싶다면 어디서부터 시작해야 할까요?
지도 학습
1. 의사결정 트리: 의사결정 트리는 무작위 이벤트 결과, 자원 소비 및 유틸리티 트리 다이어그램을 포함하여 결정과 가능한 결과를 사용하는 의사결정 지원 도구입니다. 모델.
비즈니스 의사 결정 관점에서 의사결정 트리는 대부분의 경우 올바른 결정을 내릴 가능성을 평가하기 위해 선택해야 하는 예/아니오 질문입니다. 이를 통해 구조적이고 체계적인 방식으로 문제를 해결하여 논리적 결론에 도달할 수 있습니다.
2. 나이브 베이즈 분류: 나이브 베이즈 분류기는 베이즈 정리를 기반으로 하는 단순 확률 분류기로, 특성 간에 강한(순진한) 독립 가정이 있습니다.
특징 이미지는 방정식입니다. P(A|B)는 사후 확률, P(B|A)는 우도, P(A)는 클래스 사전 확률, P(B)는 예측 우선 확률.
실제 사례는 다음과 같습니다.
이메일이 스팸인지 판단
뉴스 기사를 정치 또는 스포츠 카테고리로 분류하는 분류 기술
긍정적이거나 부정적인 감정을 표현하는 텍스트를 확인하세요
얼굴 인식 소프트웨어에 사용
3. 일반적인 최소 제곱 회귀: 통계를 알고 있다면 들어본 적이 있을 것입니다. 선형 회귀. 최소제곱법은 선형 회귀를 수행하는 방법입니다.
선형 회귀는 점과 같은 분포를 통해 직선을 맞추는 작업으로 생각할 수 있습니다. 이를 수행하기 위한 몇 가지 가능한 전략이 있습니다. "일반적인 최소 제곱" 전략은 다음과 같습니다. 선을 그린 다음 각 데이터 점을 가져와 점과 선 사이의 수직 거리를 측정하고 추가합니다. 거리의 합으로 가능한 가장 작은 선이 됩니다.
선형은 사용 중인 모델이 데이터에 적합하고 최소 제곱이 선형 모델 오류를 최소화한다는 의미입니다.
4. 로지스틱 회귀: 로지스틱 회귀는 하나 이상의 설명 변수를 사용하여 이항 결과를 모델링하는 강력한 통계 방법입니다. 누적 로지스틱 분포인 로지스틱 함수를 사용하여 확률을 추정하여 범주형 종속변수와 하나 이상의 독립변수 간의 관계를 측정합니다.
로지스틱 회귀는 생활에서 사용됩니다:
신용 등급
마케팅 활동의 성공률 측정
특정 기업의 수익 예측 제품
언젠가 지진이 일어날까요?
5. 지원 벡터 머신: SVM은 이진 분류 알고리즘입니다. N차원 공간에 두 가지 유형의 점이 주어지면 SVM은 (N-1)차원 초평면을 생성하여 이러한 점을 두 그룹으로 나눕니다.
어떤 종이에 선형적으로 분리될 수 있는 두 가지 유형의 점이 있다고 가정해 보겠습니다. SVM은 이러한 점을 두 가지 유형으로 분리하고 가능한 모든 점에서 멀리 떨어져 있는 직선을 찾습니다.
규모에 따라 SVM(적절하게 수정된 구현 포함)을 사용하여 해결된 가장 큰 문제 중 일부는 광고, 인간 유전자 접합 사이트 식별, 이미지 기반 성별 감지, 대규모 이미지 분류 등입니다.
p>
6. 앙상블 방법: 앙상블 방법은 분류기 세트를 구축한 다음 예측에 대한 가중치 투표를 통해 새로운 데이터 포인트를 분류하는 학습 알고리즘입니다. 원래 앙상블 방법은 베이지안 평균화이지만 최신 알고리즘에는 오류 수정 출력 코딩, 배깅 및 부스팅이 포함됩니다.
그럼 앙상블 방법은 어떻게 작동하며 왜 개별 모델보다 성능이 뛰어난가요?
균형 편향: 다수의 민주당 지지 표와 다수의 민주당 지지 표의 균형을 맞추면 항상 덜 편향된 결과를 얻게 됩니다.
분산 감소: 다수의 모델의 참조 결과를 집계하면 단일 모델의 단일 결과보다 노이즈가 작아집니다. 금융에서는 이를 다각화의 원칙이라고 합니다. 즉, 많은 주식을 혼합한 포트폴리오는 개별 주식보다 변동성이 적습니다.
과대적합 가능성 감소: 완벽하게 적합하지 않은 단일 모델이 있고 각 모델을 간단한 방법(평균, 가중 평균, 로지스틱 회귀)으로 결합하는 경우 일반적으로 이런 일이 발생하지 않습니다. .
비지도 학습
7. 클러스터링 알고리즘: 클러스터링은 동일한 그룹(클러스터)의 개체가 다른 그룹보다 서로 더 유사하도록 개체 집합을 그룹화하는 작업입니다. 의 개체는 더 유사합니다.
각 클러스터링 알고리즘은 다음과 같이 다릅니다.
중심 기반 알고리즘
연결 기반 알고리즘
밀도 기반 알고리즘
확률
차원성 감소
신경망/딥 러닝
8. 주성분 분석: PCA는 직교 변환을 사용하여 일련의 통계 잠재적으로 상관된 변수의 관측값을 주성분인 선형적으로 상관되지 않은 변수의 값으로 변환하는 절차.
PCA의 일부 응용 프로그램에는 압축, 데이터 단순화, 학습 용이성 및 시각화가 포함됩니다. PCA를 계속 사용할지 여부를 선택할 때 도메인 지식이 매우 중요합니다. 이는 데이터에 노이즈가 있는 경우(PCA의 모든 구성 요소가 크게 다름)에는 적용되지 않습니다.
9. 특이값 분해: 선형 대수학에서 SVD는 진정한 복소수 행렬의 인수분해입니다. 주어진 m*n 행렬 M에 대해 M=U∑V와 같은 분해가 있습니다. 여기서 U와 V는 단일 행렬이고 ∑는 대각 행렬입니다.
PCA는 실제로 SVD의 간단한 응용 프로그램입니다. 컴퓨터 비전 기술에서 최초의 얼굴 인식 알고리즘은 PCA와 SVD를 사용하여 얼굴을 "고유 얼굴"의 선형 조합으로 표현하고 차원 축소를 수행한 다음 간단한 방법을 통해 얼굴을 신원과 일치시킵니다. 하지만 여전히 유사한 기술에 의존하고 있습니다.
10. 독립 구성요소 분석: ICA는 무작위 변수, 측정값 또는 신호 모음에서 숨겨진 요인을 밝히는 데 사용되는 통계 기법입니다. ICA는 관찰된 다변량 데이터에 대한 생성 모델을 일반적으로 대규모 샘플 데이터베이스로 정의합니다.
모델에서는 데이터 변수가 일부 알려지지 않은 잠재 변수의 선형 혼합이고 혼합 시스템도 알려지지 않은 것으로 가정합니다. 잠재 변수는 비가우시안이고 독립적인 것으로 가정되며 관측된 데이터의 독립 구성 요소라고 합니다.
ICA는 PCA와 관련이 있지만 이러한 고전적 방법이 완전히 실패할 때 근본적인 원인 요인을 찾을 수 있는 보다 강력한 기술입니다. 응용 프로그램에는 디지털 이미지, 문서 데이터베이스, 경제 지표 및 심리 측정이 포함됩니다.