RapidMiner chart - 고차원 데이터
우리가 데이터를 시각화 하기 위해서 다양한 차트를 사용하게 됩니다.
- 하나의 데이터 칼럼에 대한 1차원 차트 (Histogram, Line)
- X-Y 형태의 좌표로 보여지게 되는 2차원 차트 (Scatter plot)
- X-Y-Z 형태의 좌표로 보여지게 되는 3차원 차트 (Scatter 3D)
하지만 4차원, 5차원, 그 이상의 차원에 대한 데이터의 분포를 화면에 표현 하기는 어려울 것 입니다.
그래서 우리는 주성분 분석(PCA) 와 같은 통계적 방법을 활용하여 차원을 축소하여 화면에 표현을 하게 됩니다.
RapidMiner에서는 고차원의 데이터를 시각화 할 수 있는 몇 가지 차트를 제공하고 있습니다.
1. Parallel Chart ( 병렬 차트 )
다차원의 항목을 X 축에 배치 하고 각 항목의 모든 측정치를 Y값에 배치한 뒤 각 관측치별로 직선 으로 데이터 포인트를 연결 하여 그린 차트
라인색은 데이터의 class 를 보여 주고 있는 그래프 입니다. 그래프를 보게 되면 a1, a2 항목 보다 a3, a4 항목에 의해서 class과 확연히 구분되고 있음을 확인 할 수 있습니다. 아마도 모델링 작업에
있어서 a3, a4 항목이 더 중요한 요인 될 것 이라는 것을 예측 할 수 있습니다.
2. Deviation Chart ( 편차 차트 )
편차 차트는 사실 병렬 차트와 거의 유사한 차트입니다. 다른 점은 모든 데이터를 표시하지 않고
데이터의 평균과 표준 편차만 표시해서 그려진 차트 입니다. 조금은 썰렁한 느낌이지만 필요한
정보에 대한 표시가 단순하게 그려지면서도 병렬 차트의 특성은 그대로 보여 지고 있습니다.
하지만 편차 차트의 경우 데이터의 대표값을 가지고 그려지기 때문에 이상치 여부에 대한 판단이 어렵고 이상치가 포함 될 경우 잘 못 그려질 수 있는 위험이 있습니다.
3. Andrews Curves
Andrews 플롯은 고차원 데이터를 곡선이나 직선의 형태로 나타내는 기법입니다.
변환 방법은 차원이 d 인 각 데이터 X={x1, x2, ......, xd}를 푸리에 급수 형태로 표현 합니다.
* 푸리에 급수 (Fourier series) : 임의의 주기함수를 삼각함수로 구성되는 급수로 전개 ( 이해하고 설명 하기에는 너무 복잡 하고 어려운 부분들이 많아 생략 ㅜㅜ )
중요한 것은 해당 방법을 통해 고차원에 데이터를 평면에 그려 냈고 곡선들간의 거리가 가까울수록 비슷한 유형의 데이터 라는 것을 이야기 하고 있습니다.
해당 차트를 통해 파란색의 class는 데이터 내에서 정확하게 분류 가능 하다는 것을 확인 할 수
있으며 파란색 라인 중 다른 형태의 그리고 있는 곡선을 통해 이상치 데이터가 존재 하고 있음을
확인 할 수 있습니다.
참조 서적 : Predictive Analytics and Data Mining by Vijay Kotu aand Bala Deshpande