어제는 무지성으로 돌격했다면, 오늘은 다른 참가자분의 코드를 참고해서 공부를 진행했다.
오늘 배운 점들을 나열해보면
변수에 대해 생각해보고, 파생 변수를 만들었다.
이전에 나는 결측치, 이상치 데이터들을 시각화를 통해 발견하고, 수정은 해봤었지만, 이 분처럼 파생 변수를 만든적은 없었다.
이 프로젝트에서 확인한 파생변수의 예로는
Ground Living Area 는 땅 위에 있는 전체 면적을 의미한다.
1st Flrr Square Feet 는 1층 면적을 의미한다.
만약 Gr Liv Area - 1st Flr SF > 0 이라면 최소 2층이상이라는 의미다.
따라서 2층의 존재여부와 2층이상의면적 이라는 2가지 파생 변수가 생긴다.
데이터분석을 하면서 느끼는건 웬만하면 변수가 많을수록 지표가 좋게 나온다. 이 과정에서 나오는 과적합이나 다른 오류들이 발생할 수도 있긴 하다.
우선 이렇게 파생 변수를 만드는 건 데이터를 분석하는 '내'가 할 수 있는 일들 중 하나니까, 보고 배워야겠다고 생각했다.
데이콘은 의도한 결측치 / 이상치 데이터들이 아니라면 굉장히 데이터가 정제가 잘되어 있어서, EDA과정은 크게 필요하지 않다.
실제 현업에서는 EDA과정에서 시간이 많이 걸린다는데, 발전이 있기 위해서는 이 부분도 따로 공부를 해야 할 것이다.
나는 Catboost와 ngboost를 사용한적이 없어서, 새로 설치를 했다. 이에 해당하는 코드는 주피터 노트북에 다음과 같은 코드를 입력하면 된다.
모델링은 LinearRegressor, Lasso, Ridge, ElasticNet, Catboost , NGBRegressor, RandomForest을 사용했다.
내가 건드린 코드가 거의 없어서 민망하긴 하지만, 현재 등수는 8/186 이다.
데이터분석쪽에는 여러 진로가 있는 걸로 있다. 난 모델링을 연구하기보다는, 이용하는 게 내 적성에 맞는 것 같다.
지금 당장에는, 반도체가 메인이고, 데이터분석은 서브인 느낌이지만 내가 마음먹기에 따라 바뀌는 것이기에 좀 더 시간을 두고 고민할 예정이다.
'Category > 빅데이터&파이썬' 카테고리의 다른 글
MLOps란 ? (0) | 2022.02.27 |
---|---|
인공지능학회 CUAI 합격 ( + 타이타닉코드 ) (1) | 2022.02.24 |
데이콘 - 집값 예측 경진대회 (0) | 2022.01.27 |
캐글 토이프로젝트2 - 신용카드 사기 검출 (0) | 2021.09.18 |
데이콘 토이프로젝트1 - 반도체 박막 두께 분석 (0) | 2021.08.31 |