728x90
반응형

Category/빅데이터&파이썬 24

BeautifulSoup4 , 크롤링 , 파싱 , 쿼리

나를 포함해서, 크롤링을 제대로 해 본 조원이 없어서 이번 스터디 주제를 크롤링으로 정했다. 딱히, 대회를 정하고 진행한 건 아니고 BeautifulSoup을 사용해보자라는 취지로 진행했다. 우선, 해보지 않았기에 가졌던 두려움은 충분히 해소됐고, 결과가 눈에 바로 보이기 때문에 재미도 있었다. 웹사이트에서 보이는 , , 같은 문자들이 외계어에서 영어정도로 바뀌었고, 여러모로 흥미를 가지게 된 경험이다. #step1.프로젝트에 필요한 패키지 불러온다. from bs4 import BeautifulSoup as bs import requests #step2.만약 다른 키워드를 매번 다르게 입력하고 싶으면 쿼리를 이용한다. query = input('검색할 키워드를 입력하세요: ') url = 'https:..

Zero-Shot Text-to-Image Generation 논문 리뷰 ( OpenAI 2021 )

0. Intro 지금 리뷰할 논문은 Zero-Shot Text-to-Image Generation 이다. 쉽게 말하면, 내가 텍스트를 입력하면 이미지로 표현해주는 모델이다. 위 사진을 예시로 들겠다. 내가 '아보카도 모양의 의자'를 입력하면, 밑의 이미지를 표현해준다. 마지막은 이미지와 텍스트를 동시에 입력값으로 주고, 이미지를 표현해준 상황이다. text -> image 뿐만아니라, text+image -> image 도 가능하다. 즉 다른 용도로도 사용이 가능함을 알려주고 있다. 1. 논문 선택 배경 우선 Open AI에서 발표한 논문이기 때문이다. 일론 머스크의 회사다. 인류에게 이익을 주는 것을 목표로하는 인공지능 회사이기도 하다. 그리고, Text-to-Image 라는 분야를 처음 접했고, 이 ..

구내식당 식수 인원 예측 AI 경진대회 ( XGBRegressor )

https://dacon.io/competitions/official/235743/overview/description 구내식당 식수 인원 예측 AI 경진대회 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 나는 매주 데이콘의 우수 코드를 분석하고 공유하는 스터디를 진행하고 있다. 이 대회는 구내식당의 요일별 점심, 저녁식사를 먹는 인원을 예측하는 대회였고, 1등을 한 분의 코드를 분석해봤다. 코드는 아래에 첨부해놓을 것이고, 공부하면서 내가 몰랐거나 헷갈렸던 부분을 적어놨다. 1. MAE (Mean Absolute Error) - 실제 값과 예측 값의 차이(Error)를 절대값으로 변환해 평균화 - MAE는 에러에 절대값을 취하기 때문에 에러의 크기 그대로 반영된다. ..

CUAI 활동 근황 ( 공모전참여와 계획 등등 )

1 - 공모전참여 ( 중도 포기 하기는 했지만 ㅎㅎ ) 데이콘 대회의 우수코드를 분석하는 스터디를 매주 진행하고 있다. 스터디원 중 한명이 참여해보자고해서, 당차게 시도했으나, 중도 포기했다. 이유를 설명해보자면 다음과 같다. 1. 세 명 모두 자연어처리(NLP) 초보다. 2. 이전까지는 target column이 하나밖에 없었으나, 이 공모전은 무려 3개였다. 바로 포기한건 아니구, 1주일정도 머리를 꽁꽁 싸맸으나 실패했고, 무엇보다 스터디는 같이 성장하고, 공부하는 맛이 있어야한다고 생각한다. 며칠전 새벽에, 스터디원 중 한명이, 스트레스를 받고 있는게 느껴졌다. 뭔가 머리를 한 대 맞은 느낌이였다. 그래도 빅데이터를 꽤 다뤄본 나도 이렇게 머리가 아픈데, 이제 처음 시작한 친구는 얼마나 더 힘들고,..

데이콘 - 뉴스 토픽 분류 AI 경진대회

CUAI 스터디에서 진행한 첫번째 대회입니다 ! NLP라는 자연어처리가 토픽이었고, 처음 해보는 알고리즘이여서 재밌게 참여했습니다. 저는 양방향 LSTM 모델을 적용시켰는데, 아무래도 딥러닝이 아닌 머신러닝 알고리즘이다보니 정확도가 높게 나오지는 않았습니다. 다음번에는 GPU를 이용한 딥러닝 코드로 비슷한 주제의 대회를 참여해보려 합니다. 혹시 자연어처리의 정의나 과정이 궁금하시면 다음 링크를 들어가보세요 ! -> https://dacon.io/competitions/official/235670/codeshare/1801?page=1&dtype=recent 대회링크 : https://dacon.io/competitions/official/235747/overview/description

데이터셋 나누기 / 특성 스케일 조정 / 그리드서치 / SVM

데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = (X,y, test_size = 0.3 , random_state=0 , stratify=y ) 갓이키런의 model_selection 모듈에 있는 train_test_split 함수를 사용하면 데이터셋을 랜덤한 훈련 데이터셋과 테스트 데이터셋으로 나눌 수 있다. test_size = 0.3 으로 설정했기 때문에, 샘플의 30%가 X_test와 y_test에 할당된다. stratify = y 으로 설정하면 훈련 데이터셋과 테스트 데이터셋에 있는 클래스 비율이 원본 데이터셋과 동일하게 유지된다. 특..

4장 데이터 전처리 : 좋은 훈련 데이터셋 만들기

데이터 품질과 데이터에 담긴 유용한 정보의 양은 머신 러닝 알고리즘을 얼마나 잘 학습할 수 있는지 결정하는 중요한 요소이다. -> 학습 알고리즘에 데이터를 주입하기 전에 조사하고 전처리하는 것이 매우 중요하다. 실제로 데이터 엔지니어들이 시간을 가장 오래 쏟는 부분이 '데이터 전처리'라고 합니다. // 누락된 데이터 다루기 일반적으로 누락된 값은 데이터 테이블에 숫자가 아니라는 의미의 NaN이나 NULL과 같은 값을 사용합니다. 이러한 누락된 값을 무시해버린다면 예상치 못한 결과가 나오기도 합니다. 이런 누락된 데이터를 처리하기 가장 편한 방법은 누락된 데이터를 제거하는 것이다. df.dropna(axis=0) -> 행 제거 df.dropna(axis=1) -> 열 제거 df.dropna(thresh=4..

3장 사이킷런 첫걸음 : 퍼셉트론 훈련, 로지스틱 회귀, 결정 트리

위 책의 챕터를 코드를 직접 쳐보고, 정리하기 위해 업로드하는 글들이며, 챕터 3장의 내용들을 담았다. from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y) -> 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 분할합니다. (30%는 테스트 데이터 , 70%는 훈련 데이터 , stratify=y 는 계층화기능.) 많은 머신 러닝 알고리즘과 최적화 알고리즘은 최상의 성능을 위해 특성 스케일 조정이 필요하다. // from sklearnn.preprocessing import Standard..

MLOps란 ?

머신러닝을 공부하다보니, 단편적으로 분석을 하고 좋은 수치의 결과물을 내기만 했었다. 주변 앱개발하는 사람들과의 차이를 말해보라면 나는 '배포'의 경험이 없다. 이런 경험의 부재의 원인을 찾아보니, 데이터 사이언티스트와 데이터 엔지니어의 차이를 알게 되었고, MLOps도 알게 되었다. 위는 패스트캠퍼스의 MLOps 강의에서 내가 MLOps가 무엇인지에 대해 대략적으로 알 수 있게된 정보들을 가져왔다. 관심이 있다면, 들어가서 커리큘럼을 읽어보는 것을 추천한다. 출처 : https://fastcampus.co.kr/data_online_mlops/?utm_source=google&utm_medium=cpc&utm_campaign=hq%5E211014%5E207488&utm_content=mlops란&utm..

인공지능학회 CUAI 합격 ( + 타이타닉코드 )

4학년이지만, 더 바쁘고 알차게 살고자 동아리에 지원했다. 평소 블로그에도, 데이콘 대회 관련해서 코드 업로드를 종종하는데, 혼자서 하다보니 내가 하는 방향이 맞는지 혼란이 왔었다. 그렇다보니 성장도 더딘 느낌이었고, 같이 하고 싶다는 생각을 해왔었다. 우연히 동아리 모집글을 보았고 지원해봤는데, 운이 좋았다. 1년간 활동이다보니, 취준과 겹치긴 하고, 사실 이 부분이 가장 큰 고민이었다. 할 수야 있겠지만 잘 할수 있느냐가 내 삶의 기준이기 때문에 꽤 고민을 많이 해봤고, 충분히 가능하다고 확신이 들었다. 내 대학의 마지막을 함께하는 동아리인 만큼, 행복하고 잘 해야겠다.

728x90
반응형