티스토리 뷰

엔지니어로 일하는 데 중요한거

 

데이터 관련된 직무는 데이터 애널리스트, 데이터 엔지니어링, 데이터 사이언티스트

 

애널리스트 - 분석가 

: 비지니스에 대한 인사이트 구축..

마케팅, 시각화. 이런거 보고서를 쓰거나 간단한 머신러닝을 통해 예측한다거나. 

머신러닝 -> 예측만 하면되는거?? 는 아님 

머신러닝 모델이라는 거는 말그대로 모델, 모형.  데이터가 이렇게 들어왔으니 이렇게 됐다. 

머신러닝 모델은 시뮬레이션을 하는 것. 

 

 

데이터 사이언스   - 엔지니어랑,  연구..로 나뉨

엔지니어링 -> 모델링,,   논문..   AI 엔지니어. 

연구원 ->  기업의 자산. 서비스 제공을 위한 알고리즘을 만들어내는 분들

 

 

데이터 엔지니어는  애널리스트와 사이언티스트 양쪽에게 양질의 데이터를 보내주는 것. 

그래서 엔지니어는 분석과 사이언스 전부 알아야함. 

엔지니어는 서포터.  인프라 구축 등.  

하드웨어나 플랫폼을 설치는 역할도 필요하지만. 각각의 비지니스에 대한 이해가 중요함.  

 

 

 

 

 

데이터 레이크는 데이터가 쌓여있는 공간.  다양한 형태의 데이터가 존재할 수 있음. 

File , Table, Document, 

데이터 레이크의 역할은 호수처럼. 호수에 물에 있는 거 처럼. 

 데이터가 담겨져 있는..

데이터 레이크에 담겨 있는 데이터는 정제, 전처리가 안되어 있는 경우가 많음 

말그대로 그냥 쌓아 놓은 거.  

처리를 하면서 저장을 하는거는 좀.. 그러니까 

일단 그냥 쌓아놓고. 나중에 처리

 

 

데이터 웨어하우스에는 최소한의 전처리가 이루어진 데이터가 들어간다. 

여기부터는 파일단위 관리가 힘들어 데이터 베이스로 관리하게 됨. 



데이터 마트.  사용자가 쇼핑하러 공간이 마트.   마트에서 쇼핑을 하려면 잘 정돈되어 있어야함. 

그래서 마트도 테이블로 이루어지는데,   

여기에는 JOIN 과정이 일어난 데이터가 위치.   



 

 

sql에서   FROM은  메모리에 올려질 테이블을 선택 하는 것

 

 

 

 

데이터 분석을 위한 엔지니어링은  기준을 마련할 수 있는 코드를 만드는 것. 

 

 

 

카르테시안 조인.

 

카르테시안 조인을 하면 중복이 생겨.. 웹개발할 때는 피하라고 하지만, 

 

데이터 분석에서 카르테시안 조인을 통해 코드 테이블을 마련하고,  생성된 데이터는 조인된 결과가 각각의 의미를 갖을 수 있다.

 

데이터 분석 테이블의 핵심은 데이터 뻥튀기.  기준이 마련될 떄까지 데이터를 늘려나감. 

 

 

카스테시안 조인을 통해 집계에 대한 기준을 마련할 수 있다. 

 

 

집계에 대한 기준을 만들 떄 카르테시안 조인을 활용한다. 

 

데이터를 보고 어떤 분석을 할 것인가.. 어떤 타입의 데이터가 필요한지. 

어떤 데이터를 탐색하면서 분석을 할 건지. 파악하고 데이터를 만드는게 중요함. 

 

SQL 간단한 통계적인.. 작업, 조회 느낌.. 복잡한 프로그래밍 기법이 없는 단순 통계적인 작업. SQL 이 제일 빠름.  데이터 초벌은 SQL에서 처리해서 Pandas 로 가져가는 게 좋음.  

Pandas 는 프로그래밍 기법이 반드시 필요할 때, 

Spark 는 통합된 툴. 

 

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함