데이콘 - 집값 예측 2일차

Category/빅데이터&파이썬

sumin 2022. 1. 27. 23:31

728x90

어제는 무지성으로 돌격했다면, 오늘은 다른 참가자분의 코드를 참고해서 공부를 진행했다.

오늘 배운 점들을 나열해보면

변수에 대해 생각해보고, 파생 변수를 만들었다.

이전에 나는 결측치, 이상치 데이터들을 시각화를 통해 발견하고, 수정은 해봤었지만, 이 분처럼 파생 변수를 만든적은 없었다.

이 프로젝트에서 확인한 파생변수의 예로는

Ground Living Area 는 땅 위에 있는 전체 면적을 의미한다.

1st Flrr Square Feet 는 1층 면적을 의미한다.

만약 Gr Liv Area - 1st Flr SF > 0 이라면 최소 2층이상이라는 의미다.

따라서 2층의 존재여부와 2층이상의면적 이라는 2가지 파생 변수가 생긴다.

데이터분석을 하면서 느끼는건 웬만하면 변수가 많을수록 지표가 좋게 나온다. 이 과정에서 나오는 과적합이나 다른 오류들이 발생할 수도 있긴 하다.

우선 이렇게 파생 변수를 만드는 건 데이터를 분석하는 '내'가 할 수 있는 일들 중 하나니까, 보고 배워야겠다고 생각했다.

데이콘은 의도한 결측치 / 이상치 데이터들이 아니라면 굉장히 데이터가 정제가 잘되어 있어서, EDA과정은 크게 필요하지 않다.

실제 현업에서는 EDA과정에서 시간이 많이 걸린다는데, 발전이 있기 위해서는 이 부분도 따로 공부를 해야 할 것이다.

나는 Catboost와 ngboost를 사용한적이 없어서, 새로 설치를 했다. 이에 해당하는 코드는 주피터 노트북에 다음과 같은 코드를 입력하면 된다.

모델링은 LinearRegressor, Lasso, Ridge, ElasticNet, Catboost , NGBRegressor, RandomForest을 사용했다.

내가 건드린 코드가 거의 없어서 민망하긴 하지만, 현재 등수는 8/186 이다.

데이터분석쪽에는 여러 진로가 있는 걸로 있다. 난 모델링을 연구하기보다는, 이용하는 게 내 적성에 맞는 것 같다.

지금 당장에는, 반도체가 메인이고, 데이터분석은 서브인 느낌이지만 내가 마음먹기에 따라 바뀌는 것이기에 좀 더 시간을 두고 고민할 예정이다.

728x90

I am on my way