728x90
반응형

Category/빅데이터&파이썬 24

데이콘 - 집값 예측 2일차

어제는 무지성으로 돌격했다면, 오늘은 다른 참가자분의 코드를 참고해서 공부를 진행했다. 오늘 배운 점들을 나열해보면 변수에 대해 생각해보고, 파생 변수를 만들었다. 이전에 나는 결측치, 이상치 데이터들을 시각화를 통해 발견하고, 수정은 해봤었지만, 이 분처럼 파생 변수를 만든적은 없었다. 이 프로젝트에서 확인한 파생변수의 예로는 Ground Living Area 는 땅 위에 있는 전체 면적을 의미한다. 1st Flrr Square Feet 는 1층 면적을 의미한다. 만약 Gr Liv Area - 1st Flr SF > 0 이라면 최소 2층이상이라는 의미다. 따라서 2층의 존재여부와 2층이상의면적 이라는 2가지 파생 변수가 생긴다. 데이터분석을 하면서 느끼는건 웬만하면 변수가 많을수록 지표가 좋게 나온다...

데이콘 - 집값 예측 경진대회

잃을 게 없어지니까, 예전에는 해볼까였던걸 해보고나서 생각하고 있다. 빅데이터 초보이기 때문에, 프로젝트 쌓는 경험이 필요했고, 이 대회를 참가하게 됐다. 우선 NMAE라는 지표로 평가가 된다. 대회측에서 제공해준, 베이스라인 코드를 이용해보니, 0.2정도가 나왔다. 코드를 첨부하겠지만, 아직 시각화는 해보지 않고, float형인 column들을 모두 변인으로 놓고, tensorflow로 가중치만 설정해놨다. epoch를 1000으로 몇번돌리니까 loss가 꽤 낮아졌는데, 제출이 우선일 것 같아 0.15정도로만 만들고 제출을 했다. 155명이 현재 제출을 했는데, 82등으로 나왔다. 2/4일까지 대회가 진행되니까 당연히 등수는 오를거고, 우선 푹쉬고 마저 해볼 생각이다.

캐글 토이프로젝트2 - 신용카드 사기 검출

https://www.kaggle.com/mlg-ulb/creditcardfraud/code Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com 빅데이터를 공부한지 대략 3달정도 되어간다. 처음에는 시행착오가 많았지만, 시행착오가 많았다는 사실 자체가 공부를 잘 하고 있다는 증거라고 생각한다. 요즘은, 학교 도서관에서 책을 빌려서, 공부하고, 캐글이라는 사이트를 통해 실습을 하고 있다. 현재 진행중인 프로젝트는 이틀동안 발생한 신용카드 트랜잭션 데이터를 통해, 신용카드 사기 검출 분류를 하는 것이다. train/test set으로 데이터를 나누고, Logis..

데이콘 토이프로젝트1 - 반도체 박막 두께 분석

나는 전자공학과 학생이고, 반도체 관련 직무에 지원할 계획이다. Job Description을 읽어보니, 빅데이터 역량이 필요했고, 데이콘이라는 사이트를 이용해서 대회를 나가고, 공부하고 있다. 마침, 중앙대 도서관에 마음에 드는 교재가 있었다. 경진대회에서 1등을 한 솔루션을 초보자도 쉽게 읽을 수 있게, EDA -> Modeling 과정이 상세히 나와있었고, 이를 참고해서 코드를 짜고 분석하는 중이다. 처음에는 이런 빨간색 오류창만 떠도, 스트레스를 받았는데, 구글에 검색하면 없는게 없다. 오류를 찾아내서, 구글링을 통해 해결할 때 오는 쾌감이 있다. 커뮤니티를 보니, 개발자들은 이런게 일상이라고 하는데, 나도 이제 집에서 코딩만치는 공돌이가 되어가는게 아닌가 싶다. 나는 3학년이고, 4학년2학기에 ..

728x90
반응형