1, 유클리드 측정과 유클리드 측정이라고도 하는 유클리드 거리는 거리의 일반적인 정의이며 M 차원 공간에서 두 점 사이의 실제 거리입니다. 2d 와 3d 공간의 유클리드 거리는 두 점 사이의 거리입니다.
단점: 대부분의 통계 문제에서 유클리드 거리는 만족스럽지 못하다. (각 좌표는 유클리드 거리에 동일하게 기여합니다. 좌표가 측정치를 나타낼 때 크기가 다른 임의 변동이 있는 경우가 많습니다. 이 경우 적절한 방법은 좌표에 가중치를 부여하여 변형이 작은 좌표보다 큰 좌표가 더 작은 가중치 계수를 갖도록 하여 다양한 거리를 생성하는 것입니다.
각 구성요소가 특성이 다른 양인 경우 "거리" 의 크기는 지수 단위와 관련이 있습니다. 샘플의 서로 다른 속성 (예: 포인터 또는 변수) 간의 차이와 동일하며 실제 요구 사항을 충족하지 못하는 경우도 있습니다. 인구 변이가 거리에 미치는 영향은 고려하지 않는다.
2.Mahalanobis 거리는 인도 통계학자 Mahalanobis 가 제시한 것으로 데이터의 공분산 거리를 나타낸다. 공분산 행렬이 σ 차이인 두 개의 임의 변수: 공분산 행렬이 단위 행렬인 경우 마르코프 거리는 유클리드 거리로 단순화되고 공분산 행렬이 대각선 행렬인 경우 정규화된 유클리드 거리라고도 합니다.
이것은 알 수 없는 두 샘플 세트 간의 유사성을 계산하는 효과적인 방법입니다. 평균이 μ이고 공분산 행렬이 σ 인 다 변수 벡터의 경우 샘플과 전체 마르코프 거리는 (DM) 2 = (x-μ)' σ (- 1) (x-μ) 입니다. 대부분의 경우 마르코프 거리는 부드럽게 계산할 수 있지만, 마르코프 거리의 계산은 불안정하고 불안정한 소스는 공분산 행렬이며, 이는 마르코프 거리와 유클리드 거리의 가장 큰 차이이기도 합니다.
장점: 차원의 영향을 받지 않으며 두 점 사이의 마르코프 거리는 원시 데이터의 측정 단위와 무관합니다. (다양한 특징 간의 관계를 고려합니다 (예: 키에 대한 정보는 체중에 대한 정보를 가져옵니다. 왜냐하면 관련된 것이기 때문입니다). 또한 척도는 변하지 않습니다. 즉, 측정 척도와는 별개입니다. 표준화 된 데이터와 중앙 데이터에 의해 계산 된 두 점 사이의 마르코프 거리 (즉, 원시 데이터와 평균의 차이) 는 동일합니다. 마르코프 거리는 또한 변수 간의 상관 관계 간섭을 제거 할 수 있습니다.
단점: 작은 변화로 변수의 역할을 과장하다. 공분산 행렬 불안정성의 영향을 받아 Mahalanobis 거리 계산이 항상 안정적이지는 않습니다.
마르코프 거리와 유클리드 거리의 비교:
1, Mahalanobis 거리 계산은 전체 샘플을 기반으로 하며 위의 공분산 행렬 해석에서 얻을 수 있습니다. 즉, 같은 두 개의 샘플을 가져와서 서로 다른 두 개의 전체 모집단을 넣으면, 두 개의 전체 공분산 행렬이 정확히 동일하지 않으면 두 샘플 사이의 마코프 거리는 일반적으로 다릅니다.
2. 마르코프 거리를 계산하는 동안 전체 샘플 수가 샘플 차원보다 커야 합니다. 그렇지 않으면 전체 샘플 공분산 행렬의 역행렬이 존재하지 않습니다. 이 경우 유클리드 거리를 계산에 사용할 수 있습니다.