top of page

RM 이상치 탐지 방법


이상치(outlier)는 분석 해야 할 데이터의 분포에서 비 정상적인 모습을 보이는 값을 뜻 합니다. 이는 데이터를 분석함에 있어서 Bias(편향)가 발생시킬 수 있기 때문에 이를 제거 함으로서 우리는 조금 더 정확한 모델링 작업을 진행 할 수 있을 것 입니다.

기본적으로 이상치를 찾기 위한 기본 방법은 데이터간의 거리를 계산하는 것이고 이에 대한 부분은 추후 다시 포스팅 하도록 하겠습니다.

RapidMiner 에서는 기본적으로 4가지 방법의 이상치 탐지 Operator를 제공하고 있습니다.

1. Detect Outlier (Distances)

데이터들에 대해서 k개의 가까운 데이터들과의 거리를 계산하여 순위를 정하고 설정된 n개 만큼의 데이터를 이상치로 판단하는 Operator

Ex) 데이터 에서 k=2, n=3, 거리는 유클리디언 거리 계산을 사용하여 이상치를 찾아 보자

모든 데이터에 대해서 가장 근접한 거리에 있는 2개의 데이터들과의 거리 평균을 계산하여 순위를 정한 뒤, 가장 먼 거리의 1,2,3 순위의 데이터를 이상치로 판단합니다.

2. Detect Outlier (Densities)

데이터를 중심으로 거리 d 범위 밖의 데이터 비율이 p 이상 될 때, 이상치로 판단하는 Operator

Ex) 데이터에서 d=1, p=0.9, 거리 계산은 유클리디언 거리 계산을 사용하여 이상치를 찾아 보자

데이터에서 거리 1 이상의 데이터 비율 (데이터에서 반지름이 1인 원을 그렸을 대 원 밖의 데이터 비율)이 90% 이상 가지고 있는 데이터를 이상치로 판단합니다.

3. Detect Outlier (LOF)

데이터를 중심으로 k개의 이웃들에 대해서 데이터 밀도를 계산 및 비교하여 LOF (Local Outlier Factor)를 산출 하고, 이 과정을 범위(Lower ~ Upper) 만큼 반복합니다. 그 중 가장 큰 LOF를 최종 값으로 선정 하여 이상치 판단의 정보를 제공하는 Operator

Ex) 데이터에서 Minpts(k) 가 1~3, 거리계산은 유클리디언을 사용하여 이상치를 찾아보자

A. k=1인 경우, 데이터 주변의 가까운 1개의 이웃 데이터를 선정한다.

B. 데이터 밀도와 이웃 데이터의 밀도를 계산하고 비교하여 LOF 를 산출한다.

C. 동일하게 k=2,3 일 때의 LOF를 산출 한다.

D. 각 k=1,2,3 일 때의 LOF값 중 최대값을 해당 데이터의 최종 LOF 값으로 산정한다.

결과 그래프에서 확인 할 수 있듯이 해당 기법은 주변 데이터의 밀도와 비교 분석 하는 방법이기에 이상치 데이터가 아님에도 데이터가 밀집된 지역에서 이상치로 판명이 날 수 있고, 반대로 이상치 데이터 임에도 주변 데이터 밀도가 낮아서 찾지 못하는 경우도 발생 할 수 있다.

4. Detect Outlier (COF) - Class Outlier Factor

대부분의 이상치 탐지 방법은 전체 데이터를 기반으로 거리를 계산합니다. 하지만 데이터가 이미 class, 그룹이 구성되어 있다면 기존 방법으로는 문제가 발생할 수 있습니다. 다시 말해 전체 데이터 분포에서는 이상치로 보이지 않지만 해당 클래스 내에서는 이상치인 데이터를 찾기 위한 Operator

Ex) 데이터 에서 이웃 개수가 10, 탐지 이상치 개수가 10인 경우에 대해서 Distance 와 COF 를 비교 해보자. 분석 데이터는 아래와 같이 군집화 되어 있고 파란 군집내에서 이상치로 보이는 동그라미 데이터를 찾고자 한다.

기본 Distance Operator 사용 : 해당 데이터 이상치 판단 X

COF Operator 사용 : 해당 데이터 이상치 판단 O

위의 4가지 기본 Operator 이외에도 RM 에는 Anomaly Detection 이라는 Extension을 제공 하고 있습니다. 좀 더 다양한 방법을 사용하고자 하시는 분들은 해당 Extension을 설치해서 필요한 Operator 를 사용 하시면 좋을 것 같습니다.

추천 게시물
최근 게시물
보관
태그 검색
아직 태그가 없습니다.
공식 SNS 페이지
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
A Complete Platform for Predictive Analytics
래피드마이너
bottom of page