본문 바로가기

분류 전체보기

(5)
입지 분석 FLOW 및 입지 최적화 모델 공부 입지 분석 프로젝트 전체적인 FLOW• 현황, 수요, 추세 파악: EDA 및 시계열 분석 등 • 사용할 변수 채택: 주성분 분석(PCA), 상관분석 등 • 행정구역 선정: 군집분석(계층적, k-means, k-medoids, GMM)결과 보팅 등 • 행정구역 내 최적입지 선정: 공간최적화모델(LSCP, MCLP 알고리즘) 적용, 프로젝트의 방향성에 더 적합한 모델을 최종 모델로 채택 등 ------------------------------------------------ EDA(Exploratory Data Analysis, 탐색적 자료분석)● 간단한 그림과 수를 통해 데이터가 무엇을 말하는지 살펴보기 위해 데이터를 살펴보는 분석 ● 시각화를 통해 수집된 변수들의 경향성을 파악 및 비교 가능 시계열 분..
태블로 입문: 기본 용어 및 자주 사용하는 함수 태블로는 데이터 분석 분야에서 주로 쓰이는 데이터 시각화 및 분석 도구로, 크게 아래 4가지 프로덕트로 구분됩니다. 각각은 데이터 분석 및 시각화 과정에서 아래와 같은 end to end 시나리오로 사용됩니다. 이번 WIL에는 태블로에 처음 입문하는 사람들이 알아야 하는 용어 및 함수에 대해 간단히 정리하겠습니다. (1) 기본 용어 [측정값 vs 차원] - 측정값(measure) : 태블로에서 측정값은 우리가 관심을 가지는 숫자/값입니다. 예를 들어 매출, 수익, 배송비 등이 될 수 있습니다. - 차원(dimmension) : 태블로에서 차원은 측정값을 어던 기준으로 잘라서 볼 것인가를 의미합니다. 즉 범주형 데이터에서 지역별/연도별/성별 등이 숫자를 자르는 기준이 되므로 차원이라고 볼 수 있습니다. (..
데이터 분석 Tips: 많이 실수하는 통계 오류 유형 정리 Casual이란 인과관계가 있음을 의미하고, non-casual이란 인과관계가 없음을 의미한다. 데이터 분석의 목표 중 하나는, casual association 즉 인과관계가 있는 연관성을 나타내는 가설을 검증하려는 것이다. 하지만 인과관계를 도출해내려는 과정의 도처에 오류 발생 가능성이 잠재되어 있다. 예를 들어, 상관관계 등은 통계적으로 유의하지만 반드시 인과관계가 있다고 단정지을 수 없다. 만약 인과성이 없는 관계를 인과관계로 착각한다면, 오류가 발생한다. 쉽게 범할 수 있는 통계 오류의 유형을 아래에서 간단히 정리해보겠다. 😎 (1) Data dredging 데이터 드레징(Data Dredging)은 통계적으로 유의미한 결과를 얻기 위해, 여러 변수로 여러 번의 테스트를 시도하는 과정이다. 가설..
마케팅 전략 기본: USP, AISAS, 3C, STP, 4P 마케팅은 현대 비즈니스에서 가장 중요한 부분 중 하나로, 제품이나 서비스를 판매하고 소비자들의 마음을 사로잡기 위해서 활용하는 전략을 일컫는다. 이를 위해 여러 가지 도구와 개념들이 사용되는데, 딥다이브 1-3주차에 그 중에서도 USP, AISAS 분석 방법, 3C, STP, 그리고 4P 마케팅 믹스를 배웠다. 추가로 4C 전략까지도 공부할 수 있었다. 이에 대해 정리한 내용은 아래와 같다. 📍USP(Unique Selling Point) USP(Unique Selling Point)란, 쉽게 말해 고객에게 전달되는 자사 상품만의 차별적 가치다. 제품의 특징 중 고객이 필요로 하는 가치로 발전시켜서 고객에게 제안할 수 있는 특징이라고 이해할 수 있다. 예를 들어, 애플은 '혁신'적인 '디자인'과 '사용자..
I2DL(Introduction to Deep Learning): Overfitting 개념 및 방지 기법 소개 이번주는 뮌헨공대의 유명 수업 I2DL의 시험주간을 맞아 I2DL에서 가장 중요하게 다룬 주제 중 하나인 Overfitting에 대해 공부한 내용으로 WIL을 작성해보았습니다. 1. Overfitting이란 무엇인가? Overfitting이란, 신경망이 Train 데이터에만 지나치게 적응되어 제대로 대응하지 못하는 상태를 말합니다. 데이터는 크게 Train 데이터/Validation 데이터/Test 데이터로 나뉩니다. Train 데이터에만 지나치게 적응하는 경우는 아래와 같은 상황에서 발생합니다. case1) 매개변수가 많고, 표현력이 높은 모델(too deep한 경우 포함) case2) Train 데이터가 적은 경우 위 그래프에서와 같이 Train 데이터에서는 loss가 0에 수렴하지만 Test 데이터..