#rapidminer

RM 분류 알고리즘(2) - Naive Bayes

이는 분류 알고리즘 중에 가장 확률적이고 심플한 방법입니다. (심플한지는 좀 더 보겠습니다. ^^;) 모든 속성들간의 관계를 독립이라는 가장 순수한 가정을 가진 베이즈 정리를 기반으로 하여 조건부 확률 계산을 하고 이를 기반으로 값을 예측하게 ...

RapidMiner에는 굉장히 많은 분류 알고리즘들이 기본적으로 내장 되어 있습니다. 모든 알고리즘을 설명하기는 힘들겠지만 하나하나 포스팅 해보려 합니다. ^^; 이번 포스팅에는 Default Model 과 k-NN (k-Nearest...

우리가 데이터를 시각화 하기 위해서 다양한 차트를 사용하게 됩니다. - 하나의 데이터 칼럼에 대한 1차원 차트 (Histogram, Line) - X-Y 형태의 좌표로 보여지게 되는 2차원 차트 (Scatter plot) - X-Y-Z 형태의...

Data Mining 에서 Validation, 즉 만든 모델에 대한 성능을 평가하는 작업은 굉장히 중요합니다. 만들어진 결과에 따라 모델을 사용 여부까지 판단할 수 있기 때문입니다. 이번 포스팅에서는 모델 검증 방법중 가장 일반적인 Split...

이상치(outlier)는 분석 해야 할 데이터의 분포에서 비 정상적인 모습을 보이는 값을 뜻 합니다. 이는 데이터를 분석함에 있어서 Bias(편향)가 발생시킬 수 있기 때문에 이를 제거 함으로서 우리는 조금 더 정확한 모델링 작업을 진행 할 수...

RapidMiner 본사 홈페이지에 게시된 빅데이터 분석에서의 여러가지 방법론과 알고리즘들을 그려낸 지도가 있어 포스팅 해 봅니다. 원본 : https://rapidminer.com/data-science-map/ 먼저 Data...

만들어진 분석 데이터에 어떤 알고리즘을 선택해야 하는 고민을 조금은 덜어 주고자 RapidMiner에서는 MOD라는 페이지를 운용하고 있습니다. https://rapidminer.com 에 접속 해서 resource - Machine...

RapidMiner가 아무리 많은 Operator를 지원한다고 해도 R이 가진 무한 확장성을 따라갈 수는 없을 것입니다. 그래서 때로는 분석을 하다보면 RapidMiner에서 지원하지 못하는 부분을 R을 활용하여 해결해야 할 경우들이 있을 것...

전 세계적으로 신뢰도 높은 미국 시장 조사 기관 Gartner 에서 이번달에 발표한 자료 입니다. RapidMiner가 SAS, IBM 과 함께 Leader 그룹에 포함 되어 있을을 보실 수 있습니다. Gartner는 RapidMiner에 대해서...

이번 포스팅에서는 데이터의 칼럼의 이름을 수정하는 Rename operator 에 대해 다루려 합니다. 데이터의 전처리라고 하기에는 좀 망설여 지는 부분이지만 데이터를 만지는 사람이라면 한 번쯤은 경험 했을 내용이기에 포스팅 하였습니다....