RM 분류 알고리즘(2) - Naive Bayes
이는 분류 알고리즘 중에 가장 확률적이고 심플한 방법입니다. (심플한지는 좀 더 보겠습니다. ^^;) 모든 속성들간의 관계를 독립이라는 가장 순수한 가정을 가진 베이즈 정리를 기반으로 하여 조건부 확률 계산을 하고 이를 기반으로 값을 예측하게 ...
RM 분류 알고리즘 (1) - Default & k-NN
RapidMiner에는 굉장히 많은 분류 알고리즘들이 기본적으로 내장 되어 있습니다. 모든 알고리즘을 설명하기는 힘들겠지만 하나하나 포스팅 해보려 합니다. ^^; 이번 포스팅에는 Default Model 과 k-NN (k-Nearest...
RapidMiner chart - 고차원 데이터
우리가 데이터를 시각화 하기 위해서 다양한 차트를 사용하게 됩니다. - 하나의 데이터 칼럼에 대한 1차원 차트 (Histogram, Line) - X-Y 형태의 좌표로 보여지게 되는 2차원 차트 (Scatter plot) - X-Y-Z 형태의...
Split Vs Cross Validation
Data Mining 에서 Validation, 즉 만든 모델에 대한 성능을 평가하는 작업은 굉장히 중요합니다. 만들어진 결과에 따라 모델을 사용 여부까지 판단할 수 있기 때문입니다. 이번 포스팅에서는 모델 검증 방법중 가장 일반적인 Split...
RM 이상치 탐지 방법
이상치(outlier)는 분석 해야 할 데이터의 분포에서 비 정상적인 모습을 보이는 값을 뜻 합니다. 이는 데이터를 분석함에 있어서 Bias(편향)가 발생시킬 수 있기 때문에 이를 제거 함으로서 우리는 조금 더 정확한 모델링 작업을 진행 할 수...
Data Science Map For Your Predictive Analytics Journey
RapidMiner 본사 홈페이지에 게시된 빅데이터 분석에서의 여러가지 방법론과 알고리즘들을 그려낸 지도가 있어 포스팅 해 봅니다. 원본 : https://rapidminer.com/data-science-map/ 먼저 Data...
RapidMiner MOD 활용하기
만들어진 분석 데이터에 어떤 알고리즘을 선택해야 하는 고민을 조금은 덜어 주고자 RapidMiner에서는 MOD라는 페이지를 운용하고 있습니다. https://rapidminer.com 에 접속 해서 resource - Machine...
RM 에서 R 사용하기
RapidMiner가 아무리 많은 Operator를 지원한다고 해도 R이 가진 무한 확장성을 따라갈 수는 없을 것입니다. 그래서 때로는 분석을 하다보면 RapidMiner에서 지원하지 못하는 부분을 R을 활용하여 해결해야 할 경우들이 있을 것...
RapidMiner is a Leader in the 2017 Gartner Magic Quadrant for Data Science Platforms
전 세계적으로 신뢰도 높은 미국 시장 조사 기관 Gartner 에서 이번달에 발표한 자료 입니다. RapidMiner가 SAS, IBM 과 함께 Leader 그룹에 포함 되어 있을을 보실 수 있습니다. Gartner는 RapidMiner에 대해서...
RM 데이터 전처리 따라하기 - 2
이번 포스팅에서는 데이터의 칼럼의 이름을 수정하는 Rename operator 에 대해 다루려 합니다. 데이터의 전처리라고 하기에는 좀 망설여 지는 부분이지만 데이터를 만지는 사람이라면 한 번쯤은 경험 했을 내용이기에 포스팅 하였습니다....