전체 글 41

AI 모델 훈련에 쓸 데이터가 없어지고 있다

MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)에 따르면 지난 1년 동안 AI 모델 학습에 사용되는 가장 중요한 웹 소스들 중 상당수가 데이터 사용을 제한하고 있는  것으로 나타났다. 뉴욕타임스 보도에 따르면 데이터 프로방스 이니셔티브는 널리 쓰이는 3가지 AI 학습 데이터셋이 포함된 1만4000개 웹 도메인들을 조사했고 퍼블리셔들과 온라인 플랫폼들이 데이터 수집을 막는 조치를 취함에 따라 동의와 관련해 새로운 위기(emerging crisis in consent)가  발생하고 있다는 점을 밝혔다.  AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들이 여기저기에서 취해지고 있다는 얘기였다. 데이터 프로방스 이니셔티브 연구원들은 연구AI 훈..

NEWS/IT news 2024.07.23

[공간통계 스터디] 4주차/ Random effect Spatial Model

Y=XB+e+epsilonepsilon: measurement error, N(0, covariance term) XB : mean terme : spatial random effect, need to assume a distribution, 공간 dependency 함, e~N(0, Sigma_e)measurement error와 orthogonal -> 이론적으로 unbiased 하다 (B)e와 epsilon이 실제로는 orthogonal 하지 않은 경우 많음 -> B 가 biased estimator이 됨 -> Spatial Compounding ProblemX: fixed data 지만, 일부는 공간 dependencyX가 spatial dependency 가 있기 때문에 e도 그렇기 때문에 추정..

석사 1기 2024.07.23

Areal Data and Spatial Autocorrelation

Introduction공간데이터: 정의된 경계를 가진 다각형 형태로 관찰됨이 다각형 경계는 임의로 설정될 수 있으며(=영역 단위), 행정적 경계 등 목적에 따라 달라질 수 있음ex. 경계 내의 인구 수이러한 영역 단위는 연구 단위 자체가 될 수 있지만 일반적으로 데이터 집계를 위한 단위로 사용됨"영역 단위" 는 연구 지역 전체를 완전히 덮는 "Tessellation" 형태로 존재하는 경우가 많음경계의 빈번한 변경 > 장기적인 분석에 큰 문제를 일으킴ex. 자신의 이득을 위해서 선거구 구획을 마음대로 확정하는 것 (Gerrymandering)데이터 수집이 영역 단위와 일치하도록 설계될 수 있다면, 데이터 집계를 위한 단위 선택의 영향은 줄어들 것ex. 지역 노동 시장 데이터를 출퇴근 경로에 따라 지역 노동..

석사 1기 2024.07.22

[그로스해킹] 그로스해킹 시작부터, 성장 실험까지

내가 졸업하고 가장 가고싶었던 (사실은 지금도) 마이리얼트립에서 그로스실 실장을 맡고 있는 양승화님이 쓴 책 그로스해킹.회사에서 그로스해킹 TF 를 만들어 진행하게 되어, 나는 유일한 데이터 분석가로 참여 및 리드를 진행하게 되었다.그렇게 읽게 된 그로스해킹 책. 내용을 정리해보겠다.   내가 맡은 부분은 05장. 그로스해킹 시작부터, 성장 실험까지이다. 목차는 아래와 같다. 5.1. 그로스 해킹 시작하기5.2. 데이터 파이프라인 만들기5.3. 데이터 활용을 위한 역량과 문화 갖추기5.4. 성장 실험: A/B 테스트  1. 그로스해킹 시작하기작은 회사에서 그로스 해킹을 할 수 있을까? 우리 회사처럼 데이터 분석 조직이 잘 갖추어지지 않은 회사에서는 "분석 리소스 또는 전문적 그로스해커가 없어서" 라는 핑..

[공간통계 스터디] 1주차 / sp, sf library / 공간데이터 종류와 특징

이번 주부터 공간통계 스터디를 진행하게 되었다. 책은 Roger 교수님이 쓰신 Applied Spatial Data Analysis with R 이고 예전에 나온 책이라서 현재에는 잘 안쓰는 라이브러리도 포함하고있어서 감안하고 공부를 해야한다. 그러나 예시나 설명이 바이블 수준이기 때문에 선택.  이번 주차는 내가 발표였고, chap 1.4 와 chap 2 를 맡았다. 내용은 공간데이터의 개념과 발전, 그리고 공간데이터에서 쓰이는 데이터 형태에 관한 것이었다. 공간데이터의 개념과 발전개념지리적 위치를 나타내는 데이터를 의미수학적 지리학의 기본 개념을 바탕으로 발전Google Earth와 같은 서비스의 등장으로 인해 공간 데이터의 디지털 표현 가능공간 데이터는 좌표 값을 가지고 있으며, 이 좌표 값을 참조..

석사 1기 2024.05.29

vscode 에서 git push 가 안됨

처음에 init 하고 upstream 에 올라갔는데, git push를 하려니 push가 안됨 (아래의 에러) % git push origin main To https://github.com/~~~.git ! [rejected] main -> main (non-fast-forward) error: failed to push some refs to 내 깃 hint: Updates were rejected because the tip of your current branch is behind hint: its remote counterpart. Integrate the remote changes (e.g. hint: 'git pull ...') before pushing again. hint: See the..

NEWS/ChatGPT 2023.12.22

pandas_profiling 안될 땐 ?

문제 EDA를 급하게 해야되는데 pandas_profiling 이 작동을 안했다. 이런 일은 왜 급할 때 터지는 가... 패키지 이닛들 다뜯어보고 스텍오버플로우를 뒤젹여도 안나왔음. 에러 문구 는 아래와 같은 것들이 출몰. --------------------- --------------------- --------------------- --------------------- --------------------- --------------------- 1. TypeError: concat() got an unexpected keyword argument 'join_axes' 2. OSError: '......\\lib\\site-packages\\pandas_profiling\\pandas_profi..

BDA 1

"BDA" series는 Bayesian Data Analysis Third edition (Andrew Gelman) 을 첫 장부터 읽으며 정리한 내용을 기반으로 한다. 한 게시글의 내용은 한 번에 읽을 수 있는 양으로만 정리.. BDA 1 : 1p ~ 18p (pdf reader 기준) 베이지안 데이터 분석의 Three Steps 1. Set up "full probability model" : 전체 확률 모델 설정 = P(A,B) 문제에서 관찰 가능한 모든 값과 관찰할 수 없는 모든 값에 대한 공동 확률 분포(joint distribution)을 설정, 이 모델은 내재하고있는 과학적인 문제 및 데이터 수집 프로세스에 대한 지식과 일맥상통해야함 2. "Conditioning on observed da..

Statistics 2023.10.20