본문 바로가기
728x90

전체 글133

데이터 전처리 과정에서 발생한 csv 파일 인코딩 이슈 해결법 2019년도 통계에 대한 데이터 전처리는 오전에 끝냈지만, 추가적으로 당시 요금과 관련한 한글문서 파일을 찾았다. 정확하게는 관광지 입장료에 대한 요금 파일을 찾았다. 그래서 이 파일을 csv로 저장해서 무료인데 결측치로 되어있던 부분을 문서 자체에서 수정을 했다. 분명 csv 파일로 변환하면서 따로 건드린 것도 없는데 인코딩 이슈가 났다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 27: invalid start byte 찾아보니 인코딩이 'utf-8' 이 아니어서 나는 오류였다. 그래서 해결 방법을 열심히 찾아봤다. pandas를 사용할 때, 코드 오류도 딱히 없었기 때문에 이 부분은 문제가 되지 않았고 인코딩을 변경시키.. 2023. 9. 13.
프로젝트 진행 상황 - 데이터 전처리 2023.09.12 어제부로 데이터 전처리가 시작되었다. 데이터 전처리의 경우 현재 연도별로 나눠서 담당하고 있다. 각 연도별로 1인당 지출경비의 세부 카테고리 별로 데이터를 솎아내는 중이고, 데이터 수집 비율에 대한 응답자 프로파일이나 지출기준인원같은 상위 항목에 대해서는 필요한 부분만 추출했다. 응답자 프로파일 등을 전처리에 활용한 이유는 현재 우리는 수입별, 여행목적별 등 일부 항목은 분석을 진행하지 않는다. 원본 파일에는 우리가 활용할 월별, 연령별을 포함해 성별 등등 항목이 다양하게 갖춰있어서 추출하기로 했다. 데이터 시기는 2018년부터 2022년까지, 5년에 대한 데이터가 많아 5년을 기간으로 잡기로 했다. 그래서 전처리를 진행 할 때 연도별로 일단 2개씩 맡는 것으로 진행했고, 2022년 .. 2023. 9. 13.
프로젝트 진행 상황 - 물가 파트 수집 현재 종속변수는 제주도 관광객수, 독립변수는 물가 인 파트를 담당하고 있다. 그래서 해당 자료를 찾다가 물가도 식비, 숙박비, 교통비, 항공/선박 티켓비 등등 다양한 데이터들을 발견했다. 참고한 사이트를 공유한다. https://www.visitjeju.net/kr/bigdatamap/ https://www.visitjeju.net/kr/bigdatamap/ www.visitjeju.net 내가 활용하는 자료는 사이트에 회원가입을 하고 승인을 받아야 볼 수 있는 자료들이다. 나는 기다릴 시간이 없어서 직접 연락을 드렸고, 바로 승인 해주셨다!! 오늘 아침에 메일을 확인했을때 승인되었다며 가이드도 보내주셨다. 해당 데이터에 2022년은 여름시즌을 한정으로 조사한 데이터라 우리가 원하는 월별로 나뉜 데이터를.. 2023. 9. 12.
프로젝트 주제 확정 프로젝트를 위해 조금씩 시간을 주신 것을 포함하면 벌써 보름이 넘는 기간이 지나갔다. 우리조의 대주제는 국민 여행 조사 데이터를 활용한 여행 유형 분류 였다. 너무 큰 주제이기도 했고, api를 활용하는 것도 보여줘야 하는데 그렇게 하지 못해서 주제가 많이 흔들렸다. 피드백을 받을 때도 그 다음날 주제를 보고 아예 주제를 다르게 해보라는 의견을 받기도 해서 주제를 정하는게 오래걸렸다. 종속변수를 구하는 것도 데이터가 너무 적다보니 그만큼 정하는게 너무 어려웠다. 이 글을 작성하는 2023년 09월 11일을 기준으로 주제는 모두 확정되었다. 주제 변천사를 간단하게 담아내면 아래와 같다. 1. 국민여행조사 데이터를 기반으로 한 여행 유형을 어떻게 분류를 할까 고민을 했다. 2. 강사님이 한 지역으로 한정해서.. 2023. 9. 11.
프로젝트 진행 사항에 대한 기록(readme 버전) 여태껏 프로젝트를 준비하는 기간부터 지금까지 프로젝트 진행에 대한 부분은 포스팅을 하지 않으려 했다. 그러나 이렇게 시작하게 된 계기는 프로젝트 진행 사항에 대해 남겨두면, 이후 트러블 슈팅을 남길때 언제였는지 이해하기 쉬울 것 같았고, 포스팅도 너무 오랜기간 손을 놓게 될 것 같아 남겨두자고 마음을 바꿨다. 웬만하면 github와 같이 그날그날 조금이라도 남기는 것을 목표로 하고 있다. 혹시라도 주말을 제외하고, 포스팅이 올라오지 않으면 github - Jeju project 의 readme로 확인 가능하다. 앞으로 기록할 내용 1. 남은 기간동안의 그날 그날 프로젝트 진행사항 남기기 코드의 경우 코드를 남기고, 주제에 대한 회의를 진행하는 시기에는 변천사를 모두 담아보려함. 2. 트러블 슈팅 다루기 .. 2023. 9. 11.
[대시보드] Streamlit으로 앱 배포하는 방법 먼저 오늘은 프로젝트 활용을 위한 스트림릿 배포 강의를 해주셔서 포스팅으로 작성한다! 스트림릿에 대한 커리큘럼은 없었음에도 시간을 쪼개서 강의해주신 분의 교재를 하나 소개하고 시작하려한다. https://product.kyobobook.co.kr/detail/S000202690179 Streamlit으로 프로젝트 한방에 끝내기 with 파이썬 | Sara, Evan - 교보문고 Streamlit으로 프로젝트 한방에 끝내기 with 파이썬 | - 프로젝트가 처음인데 어디서부터 어떻게 해야할지 막막해요 - 공공데이터를 활용한 프로젝트 진행 방법을 알고 싶어요 - Open API는 어떻게 사 product.kyobobook.co.kr 개발자를 지망하면 당연히 파이썬으론 장고를 사용해야하겠지만, 데이터 분석쪽으.. 2023. 9. 1.
Flutter stable 3.13 버전 확인 - iOS, API 먼저 내가 참고한 외국의 한 정보 공유 사이트라 해야하나? Medium의 게시글을 첨부하겠다. 아래의 글을 통해 공식문서를 참조하지 않아도 쉽게 알수 있다. https://medium.com/flutter/whats-new-in-flutter-3-13-479d9b11df4d What’s new in Flutter 3.13 2D scrolling, faster graphics, Material 3 updates and more medium.com 솔직히 이 글을 오늘에서야 접했는데, 접하고 난 다음 바로 플러터에 대해서도 포스팅을 해야겠다는 생각이 들었다. 첫 번째 이유로는 flutter는 여전히 정보 구하기가 힘들다. 두 번째 이유로는 정보가 귀한만큼 다루는 사람도 아직은 적은 것 같은데, 이걸 다루는 .. 2023. 8. 31.
flutter에 대한 정리를 하기 전에 (readme 버전) 플러터에 대한 공부를 쉰지는 2년 정도 된것 같다. 그치만 내 첫 코딩공부이기도 했고, 부산생활을 하면서 배우게된거라 나한텐 의미가 깊었다. 2021 GDSC의 futter 부문 일반멤버로 활동하면서 플러터 스터디를 한번도 빠진적이 없었다. 그치만 우리만 부산지부다 보니, 수도권과 교류가 없었다는 점이 좀 아쉬웠다. 코어멤버가 직접 ppt를 만들어서 기능을 가르쳐주곤했는데 이게 그렇게 재밌을 수가 없었다. ㅋㅋㅋㅋㅋ GDSC를 할 당시에는 난 본가에서 비대면 수업중이라 구글미트로 참여하곤 했었는데, 그 당시 정말 기초부분에 대해 배웠다. Row Column ElevatedButton 이런부분에 대해서 가르쳐주고 어떤 기능을 하는지를 활용했었다. 2018년에 파이썬, c 이런언어에 대해 전공기초로 깔짝여봤.. 2023. 8. 31.
Colab의 GPU용량 이슈에 대한 해결법 요즘 수업에 딥러닝을 활용하고 있어서 에폭 코드를 돌리기 위해 코랩의 T4 gpu 런타임유형을 자주 사용하고 있다. 코랩은 구글이 제공하는 클라우드 기반 Jupyter Notebook 환경으로 즉, 웹 브라우저에서 Python 코드를 작성하고 실행할 수 있다. 이런 환경을 가진 코랩은 머신 러닝, 딥 러닝, 데이터 분석 등의 작업을 수행할 때 매우 유용하고, 많이들 사용한다. 무료로 gpu 기능까지 지원하다보니 나처럼 그래픽카드가 없는 사람들에겐 분석을 할 때, 큰 도움이 된다. 하지만, 이 좋은 기능은 조건없는 무료사용이 안된다. 나 역시 사용 첫날부터 수업시간이 길고, 수업 이후 시간에도 확인해보다보니 바로 용량 제한에 걸려버렸다. 지금부터 해결 방법을 적어보려 한다! 0. 코랩 이슈에 대해 코랩의 .. 2023. 8. 30.
[데이터 분석] 딥러닝 합성곱에 대해 알아보자 오늘의 포스팅은 수업시간에 배운 합성곱에 대해 작성해보려한다. 포스팅을 시작하기 앞서 항상 느끼는게 있다. 포스팅을 하기 전에는 수업시간에 열심히 듣는다해도 코드부분을 그냥 의미없이 따라치게만 되었고, 그러다보면 항상 개념에 대한 기억은 휘발성으로 날아가버리기 마련이었다. 그래서 포스팅을 수업시간 중에 함께 하다가 언제부턴가 수업 이후 시간에 남기는 버릇을 들였는데, 포스팅을 하며 다시한번 찾아보는 과정이 도움되는것 같다. (그렇다고 다 기억하는건 아니지만....ㅋㅋㅋ) 이제 시작해보자! 1. 합성곱이란? 딥러닝의 합성곱은 이미지 처리와 패턴 인식 작업에 사용하는 중요한 연산이다. 간단히 실행 과정을 설명하자면, 입력 데이터에 작은 커널을 적용해 새로운 특성맵을 생성한다. 이 과정을 통해서 입력 데이터로.. 2023. 8. 28.
F12 안될 때도 사용 가능한 영상 다운로드 방법! 요즘은 매체가 많이 발전된 시대인 만큼 어린 아이들부터 영상매체를 먼저 접하고 자랄 정도라고 한다. 영상매체는 갈래도 더 다양해진만큼, 이젠 없어선 안되는 부분이라고 생각한다. 유심을 쓰지않는 태블릿을 사용하거나, 인터넷이 안되는 환경에서 노트북을 이용해 영상을 보고싶을때 유용한 팁!! 영상을 다운하는 방법을 작성하려 한다. 👏👏👏 단, 유튜브 영상 다운방법을 제외하고는 노트북이나 데스크탑 환경임을 미리 명시하는 바이다. 1. 유튜브 영상 + 뮤직 다운 유튜브 영상을 다운하기 위해 다들 이런 저런 사이트들을 많이 뒤적거리기 마련이다. 내가 약 2년 조금 넘는기간동안 사용해온 무료 다운 사이트를 공유하고자 한다. 이 사이트의 장점은 영상으로만 되는 것이 아닌, mp3 파일로도 다운이 된다는 것! Downl.. 2023. 8. 25.
머신러닝과 딥러닝의 알고가야 할 중요한 개념! 머신러닝과 딥러닝을 배우고, 사용하는 사람이라면 꼭 알아야 할 부분들이 있다. 이번 포스팅에서는 꼭 알아야 할 부분들에 대한 정리를 해보려 한다. 1. 데이터셋 데이터셋은 모델을 훈련하고 평가하는데 사용하는 데이터의 집합을 말한다. 훈련 데이터들은 모델의 파라미터를 학습하는데 사용되고, 검증 데이터들은 하이퍼 파라미터를 조정하고, 모델을 평가하는데 사용하며 테스트 데이터는 최종 모델의 성능을 평가하는데 사용한다. 2. 하이퍼 파라미터 하이퍼 파라미터는 머신러닝과 딥러닝 모델을 훈현하기 위해 사람이 직접 설정하는 매개변수이다. 하이퍼 파라미터 조정은 모델의 성능을 향상시킬 뿐 아니라일반화 성능을 개선하는 중요한 작업이다. 경험에 의하며, 여러가지 시도를 통해 최적의 조합을 찾아간다. - 하이퍼 파라미터의 .. 2023. 8. 24.
728x90