경영 빅데이터 특강 11주차
Shared on April 14, 2026
라고 하고 또는 소프트웨어 기술도 소프트웨어 아키텍처라고 하고 데이터베이스도 데이터베이스 아키텍처라고 하고 하드웨어도 서버 아키텍처 네트워크 아키텍처 등등의 것을 다 아키텍처를 거품이 있네. 근데 이거는 굳이
아키텍처라고 한다면 데이터 레이크 하우스를 구성하는 아키텍처라고 합니다. 그래서 거기서 대표적인 게 우리가 알고 있듯이 데이터 웨어 하우스. 우리가 데이터를 끄집어냈어. 정제를 했어. 그리고 뭐를 해요. 레이블링이라는 것도 하지.
레이블링을 해야지 패턴 인신을 시켜도 이익질은 할 수 있어요. 모델링을 하고 알고리즘을 돌릴 수 있어. 그게 생각되면 아무것도 할 수 없는 거예요. 그것들을 여기에서 만드는 거야. 데이터 웨어하우스 또는 데이터 마트에 그걸 가지고 우리는 끄집어내는데 그걸
다 담아 있는 것을 레이크라고 해요 근데 이제 한 단계 더 나가서 그걸 다 포괄하는 개념으로 데이터 레이크하우스라고 개념을 새로운 아키텍처 개념을 만드는 거예요 자 다시 정리합시다 데이터 레이크
데이터 레이크 저기 문 닫아요 뒤에 내가 10분 10분 이후는 오늘 10분 이후부터는 지각 처리할 거야 데이터 레이크는 여기 나왔듯이 저장 계층이야 저장 계층 스토리지 레이크
저장 계층이에요. 데이터를 저장하는 목적으로 갖고 있는 레이어칭이에요. 거기에 대표적인 게 아마 우리 이번 강의 시작하면서 하두비라는 걸 굉장히 많이 얘기했어요. 조금 공부에 관심 있는 친구들은 내가 하두비라는 개념을 몰랐으면
구글링이라도 해서 하둡이 뭐지? 라고 했을 거예요. 이거 앞에서 다 설명을 했었어요. 하둡에 대해서. 그래서 이것들이 요즘에는 온보딩은 뭘까? 예전에는 시스템을 갖추려면
기업마다 전산시 꾸미고 거기에 서버도 들어가고 컴퓨팅 자원도 들어가고 거기에 저장하는 스토리지 자원도 들어가고 네트워킹 또 그걸 분산 배치할 수 있는 크라우드 환경 뭐야 하여간 갑자기 저거 될 거야
그런 것들 자원들을 다 갖고 했다고 그걸 또 운영하는 인력들도 고용을 해서 배치를 했어요. 그런데 이제는 그런 것들보다는 클라우드에서 클라우드 환경에서 작업하는 게 굉장히 많아졌어요.
왜? 관리 포인트도 줄이고 초기 투자금도 줄이고 그리고 데이터는 예전보다 기하급수적으로. 그러면 제일 먼저 많이 늘어나는 게 뭐냐면 컴퓨팅 자원, 프로세스에 대한. 그리고 저장 자원.
늘어요. 그럼 돈이 추가로 들잖아. 그래서 클라우드 기반으로 내가 사용하는 만큼 쓰는 만큼 내겠다고 해서 이 데이터 저장계층은 그렇게 활용하는 게 나아요. 자 이건 잊어버리지만 데이터 레이크에는 저장계층인데
핵심적인 기술은 딱 하둑을 생각하면 돼 대표적인 게 하둑이 그림으로 나오는 게 뭐였죠? 코끼리 코스트그레스 코끼리 말고 뭐지? 하만가? 그 뭐냐? 아
코끼리 말고 아 코끼리 맞네 맞다고 좀 얘기해줘 노란 코끼리에요 이 하나의 그림만 보면 다 그 구성을 인식할 수 있어 자 우리 여기서 저장계층이지
이 저장계층의 핵심 기술이 뭐라고 했죠? 데이터 레이크 데이터 레이크가 여기에 들어가는 거예요 데이터 레이크가 연관을 시켜서 연결을 시켜서 얘기를 봅시다
자 이거 끝났어. 각시정리. 데이터 레이크는 저장 계층인데 주요 기술은 하듭을 쓴다. 하듭은 그림으로 코끼리다. 노란 코끼리다. 자 메타데이터 레이어. 메타데이터 계층이 있어요. 여러분들이 이제 데이터 분석을 하게 되면
메타데이터라는 걸 수위 관리도 하고 생성도 하고 그렇게 해요 메타데이터가 뭐예요? 메타데이터가 뭐예요? 지금 메타데이터에 대한 개념을 모르면 말이 안 돼 신입생은 뭐라고 메타데이터가 뭐예요?
내가 앞선 시간에도 몇 차례 얘기했어 처음 들어와? 혹시 그렇진 않지? 메타데이터는 뭐야?
그렇지 데이터를 설명하는 데이터예요. 데이터를 설명하는 데이터야. 데이터를 설명하는 데이터. 하나의 데이터가 있으면 그걸 설명하는 데이터가 붙어. 레이블을 하고는 또 다른 개념이에요. 그래서 이거는
델타 레이크라든지 아이스버그라는 걸로 관리를 해. 그래서 이 데이터, 여러분들 빅데이터가 아니어도 일반 레거시 데이터, RDBMS에서도 데이터 메타레이카를 쓰는데 이거를 뭐라고 할까요?
오라클 RDB 할 때 이 개념이 나왔을 거야 분명히 3학년 때 배우나 2학년 때 배우나 오라클 RDB 공학생 언제 배웠어요? 3학년 2학년 때 배웠어요? 거기서도 이게 분명히 나왔어요 스키마라는
기억나? 잘 기억 안 나요? 데이터를 관리하는 우리 측면에서는 메타데이터와 이 스키마, 스키마라는 개념을 명확하게 알 수 있어요. 이 스키마는 현상, 엔터티, 내가 한 3주 전에 이 강의하면서 얘기를 했을 거예요.
엔터티와 엔터티의 관계를 뭘로 엮어? 관계를 영어로 해봐 관계를. relation이잖아. 현상과 현상. 그림으로는 박스와 박스를 연결하는 게 relation이잖아. 그 relation과 relation을 연결시키는 것을 인식시키는 게 스키마야. 여러분들이 이제
현장에 나가면 이 스키마 구성을 맨날 해야 돼. 스키마가 뭐야? 그때 가서 배우면 안 된다는 얘기야. 그래서 데이터를 설명하는 데이터인 메타데이터의 레이어는 이 계층에서는 스키마, 이 트랜잭션 이거보다도
더 중요한 게 이 스키마를 발휘한. 내가 앞에서 뭐라고 그랬어요? 다시 정리하는 거야? 여러분들이 눈동자를 보니까 혼란스러워해. 메타데이터와 메타데이터가 있어. 그걸 어디에 들어가 있을까? 엔터티 안에 들어가 있지. 그리고 또 어디에 들어가 있을까?
릴레이션에도 그림으로만 박스고 선으로 있지 다 그게 그 안에는 뭐가 들어가 있어요 스키마 안에 메타레이어가 들어가 있다 그래서 이 스키마 안에 이 구성을 다 열어버린다 오라클 할 때 ECL, DDL 이거 배웠죠 개념
그치 데이터를 데이터베이스를 생성하는 거 데이터베이스의 구성을 생성하는 레깅지 SQL을 뭐해하러 뭐에 해당되는 dcl에 포함돼 ddl에 포함돼
개념이. 그렇지. DCL의 커맨드잖아. 00어잖아. 그렇지? 그렇게 된단 말이야. 그렇듯이 이 스키마 구성이 다 거기에 해당돼. 데이터를 해야 되는데 우리 같이 이런 개념들을 모르면 취직을 딱 있어 우리가.
또는 고객하고 업무 설명을 해. 말이 안 통하는 거야. 그러면 또는 회사로 취직을 했는데 선배가 여태까지 4학년 동안 뭐 했냐? 이렇게 얘기를 할 수 있겠다. 내가 현장에서 무수히 겪었던 거야.
야 학교에서 뭘 배고 왔지? 이런 식으로 입사 면접 보는데 예전에는 자기소개 해봐요 이러면 여러분들 뭐라고 해? 대체로 지금 뭐라고 할 것 같아? 뭐라고 할 거야? 자격증 말고 아직도
잠에서 안 깼구나 입사 지원할 때 자기소개 사야 자기소개 해보라고 하면 인터뷰야 면접관 앞에서 어떤 논기 이제는 기술적으로 해결을 해 내가 니네 회사가 뭐를 하는 것 같은데 내가 여기 들어오면 내가 내가 여태까지 배웠던 것 내가
지금까지 해왔던 것 그리고 준비했던 것 가지고 기술적으로 어프로치를 해요. 옛날처럼 저는 한 10년 전까지만 해도 면접보로는 이런 학생들이 대부분이었어요. 저는 평범한 가정에서 태어나서
아버지는 뭐 하시고 어머니는 가정의 전업주부시고 이런 식으로 시작하는 친구들 많지. 그러면 안 뽑아. 하다도 준비가 안 된다. 그리고 대체로 자기가 지원한 회사가 뭐 하는지도 모르고 오는 친구가 꽤 있어. 하다못해 홈페이지라도 보고 와야 되는데
그런 것도 안 하고 오는 친구들 많아. 그러면 면접관이 짜증나. 굉장히 성의 없는 거지. 그리고 그 친구들 시간 내서 왔는데 교통비 자기 비용 내고 왔는데 그렇단 말이야. 그런 것과 맥락을 갖췄다면 이것 정도는 알아야 되는데
특히 우리 빅데이터를 분석을 하고 빅데이터와 관련된 일을 한다고 하는 친구들은. 그리고 우리 이 개념 앞에서 다 배웠던 거야. API하고 쿼리. API가 뭐야? API 뭐야? 지금 이거는 우리가.
꼭 알고 가야 되는 것들이에요. API가 뭐야? 대충이라도 얘기해.
여러분들이 데이터를 가져온다든지 어플리케이션과 어플리케이션 연동시킨다든지 이럴 때는 API를 꼭 써야 돼요. 어플리케이션 프로바이드 인터페이스 이걸 굉장히 많이 써요. 4학년쯤 되면 대부분 이걸로 해가지고 여러분들 지금
데이터 개더링 해가지고 오는데 가져오는데 추출해서 오는데 API API 써가지고 갖고 왔지 안 썼나 그냥 내려놓고 저기에서는 그냥 내려놓고 실시간 제공되는 공공 데이터도 다 API가 다 연동돼 있어
이렇게. 그리고 쿼리 엔진. 쿼리. 앞서도 얘기했지만 여러분들이 SQL이라고는 다 알지. SQL이 뭐예요? SQL이. SQL이 뭐예요? typeservice.web. 내 이름을 잘. 현성은 학생.
SQL 뭐야? 알기는 하지. 뭔지는. 뭐 할 때 써요? 저걸? 응. 옆 짝꿍 얼굴 보면 뭐 답이 나와? 아니 아는 대로만. 짧게 해도 돼. 맞아. 데이터베이스에서 쓰는 거 맞아. 근데 꼭
이걸 데이터베이스 쿼리 안하면서도 써요. 요즘에는. 기본적으로 예전에는 데이터베이스를 쿼리할 때 썼던 거야. 불러내기 위해서. 그 옆에 학생들, 이걸 SQL가 지금 뭐 했었어요? 뭐 해봤어? 지금 3학년인가? 어?
아사학년 경영경비 경비 이거 가지고 뭐 해본 거 있어요? 쿼리에서? 쿼리는 기본적으로 불러내는 거야. 불러내는 거야. SQL이 뭐냐면 말 그대로 S
structure는 구조화된 쿼리에 불러내는 language에요. 언어라고 language는 뭐야 프로그래밍을 다 language라고 해요 전 세계는 약 4500가지의 language가 있어 프로그램 언어가 있어 근데 우리가 대체로 쓰는 거는 한 20에서 30가지 거비 내에서 쓰고 있어
그만큼 많아. 생겼다 없어지고 여러분들도 프로그램 랭귀지 만들 수 있어. 그래서 이 API나 쿼리나 피가 없지만 여기도 어플리케이션 응용단에서 제공되는
인터페이스란 말이야. 그냥 영어로 되어 있는데 해석하면 돼. 그러면 감이라고 와. 그리고 커리는 뭔가 불러내는 전달해주는 구조화된 엣진이야. 그래서 저장된 여기 있잖아. 저장된 데이터를 어딘가 이동시키지 않고도
않고도 해당돼서 내가 거기 들어가서 거기 들어가서 그 데이터 있는 곳으로 들어가서 내가 분석할 수 있다. 물론 가지고 올 수도 있어. 가지고 올 수도 있어. 그런 기술적인 아키텍처 제공하는 걸 프레스토하고 스파크 SQL 등으로 한다.
기술적 이게 그림에 요런데 다 들어가 있어요. 여기 표시는 안 되어있지만 여러분들이 하는 nosql 같은 거 이게 sql 그리고
주로 현장에서 많이 쓰는게 PostgreSQL, MySQL도 상당히 많이 써요. 그리고 수집 가공할 때, ETN 할 때는 Spark, CapColet 많이 쓰고 이렇게 해서 데이터 분석을 하려고 치면 이 세 개는
세 가지의 개념과 행위는 알아야 된다. 다시 조금 더 확장돼서 데이터 레이크하우스는 저장 단계에서 뭐예요? 가장 핵심적인 기술적인 백그라운드예요. 그걸 데이터
레이크하우스라고 해. 예전에는 앞서 얘기했죠. 예전에는 그냥 데이터 레이크라고 그랬어. 근데 데이터 레이크 또는 그 앞전에 데이터 레이크에 들어가는 게 데이터 마트
데이터 웨어하우스 이렇게 해서 그걸 데이터 레이크라는 데다 퐁당 빠트렸는데 요새는 고거다 커졌어 사이즈가 점점 데이터도 늘어나고 분석도 늘어나고 이러잖아 그러다 보니까 데이터 레이크 하우스라는 데다가 퐁당 빠트리는 게 아니고 데이터 레이크에다 퐁당 빠트렸다면 얘는
흥덩 빠트리는 거야. 그래서 범위가 커졌다는 거야. 그래서 구조화된 CDC 환경을 만들고 거기에는 구조화됐다는 건 뭐예요? 빅데이터는 비구조화되는 거예요. 우리가 기존 레가시로
우리 학사 운영 시스템에 대한 예를 들어서 우리가 지금 학교의 학사 운영 시스템 같은 경우는 빅데이터보다는 기존 구조화된 시스템을 쓰고 있다고. 거기에 대표적으로 데이터베이스 매리먼트가 운영되는 게 관계형 디비, R 디비.
Relation이에요. 이게 관계형 DB Relation DB 또는 실시간으로 처리하는 OLTP Online Transaction Process 시스템을 써요 여러분들 지금 우리 출석체크 있잖아 지금 이게 OLTP란 말이야. 즉시적으로 하잖아
그리고 이때는 변경내역을 실시간으로 수집하는 CDC, Change Data Capture, 변경되는 데이터를 즉시, 이제 DB를 하다보면 내가 데이터베이스에 관심이 많다 그러면
데이터베이스를 스냅을 뜬다는 얘기를 해요 그게 뭐냐면 스냅샷을 찍는다고 해서 사진 찍듯이 데이터베이스의 틀을 찍어서 이쪽으로 복사형을 전할 수 있게 해요 이렇게
이것도 그와 비슷한데 그렇게까지는 안하지만 데이터를 캡쳐를 끄집어낸다. 그런 역할을 하는 게 여러분들 배웠다는 오라클. 이거는 뭐예요? 상용화되는 거예요. 데이터베이스가 아니야. 데이터베이스 매니지먼트 시스템이에요.
DBMS에요. 요거에요. DBMS 요거 요거. 근데 오라클은 RDBMS에요. 근데 최신 오라클은 RDBMS 앞에 O자가 붙어. ORDBMS. 곧잡해지는 점점 어려워지지.
Object Relation Database Management System으로 끝까지 MySQL 같은 경우엔 이것도 하지만 Postgreed도 그렇지만 Big Data 분석할 때 많이 써 그리고 이제 넘어와서 Data Lake House에는 뭐가 담겼는지를 보는 거야
기술적인 아키텍처? 헷갈리면 안돼? 저 큰 우물 안에 데이터 레이크하우스라는 큰 집 안에 이런 것들이 들어가 있어요 그리고 이런 역할들을 해요 그 다음에 이 안에
이 안에 세일스포스라는 게 또 들어가 있고 스트립이라는 게 들어가 있고 엄플리큐드라는 게 들어가 있어요 사스라는 거 들어봤어요? 사스, 이아스, 다스 뭐 이런 거 들어본 처음 들어봐요?
여러분들이 이제 이런 개념을 아주 일상적이어서 쓰는 거예요 사스는 뭐냐면 이것도 내가 쓰는 만큼 서비스를 제공받은 만큼 돈을 지불하는 거예요 뭘? S 소프트웨어
아 소프트웨어에요 이건 s
이거는
이거의 양자 줄임말 소프트웨어 as a service 서비스로 이루어지는 소프트웨어 서비스로 이루어지는 소프트웨어 또 이거는 스트러스
스트로처 똑같애 이건 이건 서비스로 이루어지는 인프라 인프라에는 뭐가 있어요 하드웨어가 있고 네트워크 있고 또 스토리지가 있어
등등등등 얘는 소프트웨어는 뭐가 들어가 RDBMS도 소프트웨어예요 오라클 같은 거 또 뭐가 있을까 분석 도구 같은 거 우리 뭐 써 파이썬 파이썬
파이썬은 무상이잖아. 우리 시각화도 뭐 써지? 태블러 같은 거. 등등등등을 다 내가 직접 돈 내고 안 사고 우리 회사에서 안 사고 이걸 제공해 주는 회사 걸 쓰는 만큼 돈을 내는 거야.
얘는 서버, 네트워크, 저장장치를 내가 돈을 쓰는 만큼 돈을 내는 그런 개념이에요. 그걸 뭐라고 해서 클라우드라고 했지. 클라우드의 대표적인 데가 어디예요? 대표적인 데가 어디야? 아마존. AWS. AWS.
아마존
웹 서비스 그리고 또 어디? 이 정도는 알아야 돼요. 마이크로선트에 애정 그리고 국내로 넘어오면 다 있어. 네이버도 있고 카카오도 있고
KT도 있고 SK도 있고 삼성도 있고 다 있어. 이런 데서 이 인프라, EAS라는 것도 하고 SAS라는 것도 해요. 기본 구성. 그러면서 예전에는 처음에 할 때는
백업 백업부터 시작했어 데이터 백업부터 이게 확산돼서 이런 쪽으로 다 해줍니다 그래서 신생기업 같은 경우 여러분들이 창업을 했다 그러면 내가 학교도 마찬가지에요 이게 다 거의 쓴 비싼 돈 주고 샀는데 쓰지 않잖아
문화깍지. 유지보수 돼야 되고 막 그러는데 이런 필요가 없다는 거지. 이런 거 길러서 쓰면 돼. 우리 학교도 관리자께서 조금 더 현명했다면 이렇게 쓰면 또 고급지게 쓸 수 있거든. 그래서 여기도 마찬가지지만
이걸 다 연동할 때 뭘로 할까? API라는 걸로 연동을 해요. API, 데이터만 가져오는 게 아니야 API가. 프로그래밍 인터페이스 하는 것도 API가. 잘못 알고 있는 친구들이 굉장히 많아. 그리고 이
EAS 안에 DB만 있는 게 아니고 여기에 CRM이라든지 고객관리계 그리고 프로젝트 관리하는 PRM 이런 등등 다 여기서 빌려서 쓸 수 있어요. 구르베오도 여기서 쓸 수 있어 빌려서. ERP도 여기서 빌려서 쓸 수 있어요.
대표적인 ERP 빌려 쓰는 데가 어디야 여러분들 광고에 많이 나오는 데가 버전 또 라디오 광고에 많이 나오는 데가 뭐지 세무회계 노래도 많이 막 만들어서 쓰잖아 그러니까 기억이 나
예 이런 것들 그래서 우리는 이때 세이 스포스 가 crm 이에요 세계에서 가장 큰 그리고 가장 데이터베이스가 많아 데이터베이스가 많다는 건 무슨 뜻이냐 데이터가 많이 축적돼 있다네 이런 데 데이터가 축적되면 뭐든지 할 수 있어요 그 대표적인 사례가 뭔지 알아요
데이터가 빅데이터가 많이 축적돼 있다면 뭘 할 수 있는지 그 비즈니스 영역은 어디까지 확장할 수 있는지 영역이 생각하기 나름이야. 대표적인 게 내가 카카오에요. 카카오가 안 하는 게 없지. 뭐뭐 해. 대표적인 게 카카오에서.
처음 카카오는 카톡을 했던데요 카카오가 언제 생겼냐면 2009년에 생겼어 카카오가 카톡을 시작하다가 다음을 먹었어 다음이 먼저 알죠 네이버 같은거 검색 저기 다음을 먹었는데
카카오가 그 안에서 카톡 안에서 채팅만 한 게 아니었잖아. 이모티콘도 만들고 거기서 동아리 방도 만들고 막 하더니 갑자기 금융도 하고 뭐 하더니 또 하더니 요즘에는 엔터까지도 해요. 내가 얘기했나? 우리나라 엔터 산업의 큰 손이라고?
웬만한 유명한 데는 카카오가 거의 다 갖고 있어요. 엔터를. 그리고 또 뭘 하냐면 하다못해 네이버에서 우리 음식점 예약도 하고 미장원 예약도 하고 그러죠. 안 해봤구나. 그러니까 카카오도 그걸 한다니까.
안하는게 없어. 하다못해 카카오는 모빌리티 돼. 경기도 가면 노란 바이크 노란 전기사정부. 여기도 전기사정부 있잖아. 대구에도. 카카오가 경기도를 안하는게 없어. 또 쿠팡이 뭐했던 회사야? 쿠팡. 안 써봤어? 쿠팡?
근데 그 와 뭐해 뭐해 쿠팡이 하는게 그 업종을 뭐야 배달 그치 배달도 하지 배달도 하지 쿠팡이 쿠팡이 배달을 했지
물건 팔잖아 오픈마켓이다. 오픈마켓으로 시작을 하고 배달을 하고 그리고 또 뭐를 해? 걔네들이 우리의 정보를 우리의 빅데이터를 다 갖고 있어서 뭐를 해? 뭐라 하지? 쿠팡 플레이를 하자. 그러니까 내
넷플릭스 같은 걸 할 수 있다는 거예요. 그러니까 여러분들도 창업할 때 그런 비즈니스 아이디어를 갖고 아 이렇게 하면 되겠구나 라는 아이디어를 데이터가 축적이 되면 그런 강점을 가질 수 있다는 거예요. 데이터가 무기야. 무기. 재산이니까.
그리고 이 데이터 레이크하우스에는 얘만 들어가 있는게 아니고 이런 것만 들어가 있는게 아니고 파일 포메트 들어가 있어요 데이터베이스 구조화된 구조화된 구성이랑 이런 사스라든지 마케팅 툴
이런 것만 들어가 있는 게 아니고 파일 체계만도 들어가 있단 말이야 이런 게 아닌 비구조화된 파일 체계도 들어가 있어 그래서 원시적인 진화되기 전 스키바도 갖고 있어 이걸 가지고 체계를 만들어서
여기서 정제드 할 수 있고 스키마를 만족할 수 있는 거예요. 그런 거예요. 그건 처리할 수 있는 거예요. 어렵지? 많이 어려워? 할 게 너무 많아? 어려울 거야.
어려울 거야. 그래서 내가 최대한 반복해서 설명을 해주려고 그래. 이게 이제 여러분들이 브론즈, 실버, 골드 이래. 이거는 기억을 안해도 되는데 이거는 이제 데이터브릭스라는 회사에서 제안한
데이터 레이크하우스 아키텍처 모델을 색깔로 그냥 말로 설명하면 좀 그러니까 색깔로 구분해가지고 이론을 정립한 그런 계층화 설계 모델이에요. 처음에 이제 첫 번째 세 번째 스텝까지가 있는데 첫 번째 스텝이
이제 브론즈, 농메달. 농메달인데 여기서 나왔듯이 로우 데이터. 가장 기본적인 낮은 수준의 데이터. 데이터를 소스로부터 수집된 최초의 데이터라고 생각하면 돼. 가공 없이 그대로 저장되는 영역을
동메달, 누런 레이어층이라고 생각을 하고 이게 첫 번째 단위야. 이 특징은 원본 데이터 형태를 그냥 유지하다가 그리고 데이터가 상실되거나 멸실되었을 때
수월 목적으로 그대로 갖고 있는데 아주 원시적인 걸 그리고 예 포맷은 형태는 주로 제이슨 여러분들 많이 쓰세요. csv 형태 이게 최초의 형태라고 보시면 돼요. 그걸 이제
이걸 딱 나름의 규격화, 체계화해서 포맷으로 저장하는 게 파킷이라는 거예요. 파킷이에요. 파킷은 잊어버려야 돼요. 이 포맷은 제이슨이나 csv이다. 첫 번째는 대부분 그렇게 갖고 오잖아.
그죠? 그리고 두 번째 단계. 은메단. 실버레이어 층은 이것만. 이것만 알면 돼. 필터. 정제됐고. 크레인즈. 깨끗이. 정제.
걸러내고 필터 걸러내고 정제한 데이터를 갖고 오는 거예요. 그래서 거기서 중복 제거가 일어나고 여기에서는 두 번째는 결측치 처리를 하고 세 번째는 데이터 형식을 통일하는 걸 실행합니다. 주로 이제 우리가 많이 하는 거예요.
데이터 사이언티스나 데이터 분석가들이 많이 하는 거예요. 그리고 이제 마지막 단계. 마지막 단계. 어떤 우리가 지금 프로젝트를 하고 있잖아. 거기서 비즈니스 목적을 발견을 하는 거죠. 뭘 할지를 발견을 해서 저걸 하는 거예요.
그 목적이 발견됐을 때 이것을 학습시키는 모델을 적용하고 어떻게 하겠다. 그래서 그의 목적에 맞게 최종적으로 가공한 상태의 데이터.
그래서 구조화 시켰던 그런 데이터 형태를 갖추고 있어요. 그러면 구조화 시키면은 뭐를 할 수 있어? 제이슨하고 csv에서는 쿼리하면 날라와요? 안 날라오지? 안 날라와요. 날라올 수가 없어. 막 브레이크도 오고 막 이상한 게 막
깨진 문자도 날아오면 그거 못 닦아. 안 된단 말이야. 이 마지막 계층에서는 쿼리 성능을 최소화할 수 있어요. 왜? 딱 여기 들어갈 놈들 여기 들어갈 놈들 여기 들어갈 놈들 여기 들어갈 놈들을 다 정제한 상태 실버
얘에서 필터하고 클렌즈 되어 있는 데이터를 가지고 얘가 넘어왔기 때문입니다. 이거는 의사결정지원 및 실시간 서비스 할 수 있게 어플리케이션과 연동하는 데 활용을 할 때입니다. 자, 다시 용어 정리를 좀 해봅시다.
일단 용어가 뭔지 대부분 다 아는 거예요. 지금까지 계속 저장에 관한 얘기를 하고 있는 거예요. 저장 아키텍처에 대한 얘기를 하는 거예요. 저장 아키텍처를 할 때 데이터 카탈로그라는 거를 여러분한테 설명을 했을 거예요. 그런데 다시 한번 얘기합시다. 듣고도 잊어버려.
대부분 보면 한국말로 되어 있는 게 없기 때문에 인간인간한 우리가 영어를 썩 잘하는 사람이 아니잖아 나도 영어 살 못하는 거야 근데 보면 데이터 카탈로그는 거야 데이터, 메타데이터와 데이터 카탈로그의 차이점 뭐가 차이나 있어
메타 데이터와 데이터 카탈로그의 차이. 그거 읽어도 돼. 여기 있어. 그대로 써 있어. 그거 읽어도 돼. 데이터 카탈로그는 저장된 데이터의 위치 구조 의미를 관리하는 메타 데이터 사전이고. 우리 껌 읽어야 돼.
심플하게 데이터 카탈로그는 카탈로그의 사전이야. 메타데이터는 뭐라고? 데이터를 설명하는 데이터. 이 데이터를 설명하는 데이터를 사전처럼 만든 게 카탈로그야. 여러분들이 현장에 나가면 취직을 하게 되면 데이터 카탈로그라는 걸 수도 없이 들어.
데이터 카탈로그 데이터 카탈로그 네타데이터와 데이터 카탈로그는 수도 없이 그리고 실제적으로 여러분들이 또 이걸 구성을 해요 제일 많이 할 걸 아마 신입사한테 이 작업을 여러분들이 이걸 많이 해요 그리고 여러분들은
기본적으로 데이터를 다룰 때는 데이터 보안 이제 전체적으로 가면 데이터 거버넌스 체계에 맞게 데이터 보안을 설정을 했냐라고 얘기를 할 거야 데이터 보안 민감정보에 대해서 개인정보에 대해서
여러분들이 법적인 제재를 안 받으려면 보안에 굉장히 신경을 써야 됩니다. 그래서 우리 이렇게 어디 비밀번호 칠 때 보면 아스타 아스타도 나오죠. 아니면 점으로 빵빵빵빵 나오든지 데이터베이스에 등록할 때도
여러분들이 생년월일 앞자리하고 뒷자리하고 넣을 때 주민번호 넣을 때 생년월일 6자리는 뭘로 보여요? 숫자로 보이지? 십진수 뒤에는 뭘로 보여요? 뒤에 뭘로 보여요? 얘기 좀 해줘 알고 있잖아
모르는 아니지. 본인 많이 해봤을 거 아니야. 어? 별. 그렇지. 첫 자는 10진수가 나와. 3으로 뜨지. 4. 4. 왜 웃어. 그럴 수 있지. 실수할 수 있지.
1900년대에 태어난 사람은 나같은 사람은 남자는 1, 여자는 2, 2000년대에 태어난 사람은 여자는 4, 남자는 3 이렇게 되는거지. 미안해요. 그렇듯이 보여지는 것만 아스타로 태어난 게 아니고
구조화된 데이터베이스 틀 안에 집어넣을 때도 일반 사람들이 인식을 하지 못하게 해시코드 해시코드로 암호화해서 집어넣어야 돼 기본적으로 그건 철칙이야 내가 눈에 보이게 내가 그걸 떠가지고 딴 데서 딱 봤는데 그대로 노출되게
이렇게 하면 안 된다 데이터를 나눈 사람들은 기본 설치기야 그걸 뭐라고 해? 마스킹이라고 하자 비밀스럽게 보여지고 마스킹이라고 여러분들 암호화폐 갖고 있지? 진짜? 믿을 수가 없는데
진짜 그렇게 가능하다는 말이야? 블록체인 이 마스킹 암호화 체계 해쉬 마스킹 체계로 이루어졌어요 그게 예전에는 54비트 체계로 됐다가 지금은 256비트
체계로 하고 더 1024 체계로도 합격 어려워지는 거지 아예 해독을 못하게 그리고 이게 접근을 아예 그 데이터에 접근을 못하게 접근 제어를 하는 거예요 접근 제어
그런데 아무도 접근을 못하게 하면 어떻게 돼? 그건 또 말이 안 되잖아 그래서 접근할 수 있는 사람, 여기서 핵심 관리자만 접근해라 그 사람한테 또 암화 체계를 부여하고
작년 말에 쿠팡이 개인정보가 털렸어요. 3,600만 건이 우리나라 인구가 5,200만이라고 치면 3,600만이면 75%가 털린 거야. 그때 뭐 때문에 그랬어요? 이 접근제어 통제를 못한 거예요.
비밀번호도 접근제는 자기네들 통제는 했다고 하는데 비밀번호도 바꾸지 않고 퇴사자가 그냥 접근할 수 있게 관리도 안 돼 있어 이렇게 했단 말이야 그리고 그러다 보니까
아무나 다 들어온 거야. 중국 사람이 중요한 게 아니고 중국 사람이 담당자였는데 그 친구가 퇴사한 후에 밖에서 여기에 들어가서 한 거야. 이게 말이 안 되는 거지. 이 접근제 통제를 못 한 거야. 실패. 그러면 그건 회사의 치명적인 솔트라는 거야. 기본을 망각한 거야.
그리고 데이터 리니지. 데이터의 생성부터 최종 가공까지 흐름을 추적할 수 있는 트레이스할 수 있는 족보를 관리해야 돼요. 그래서 여러분들한테 노션을 써라. 노션을 쓰는 게 좋겠다. 이제 여러분들 실무에 들어가면 칸만 보드라고 해가지고
내 이력을 포스트잇처럼 노션 안에서 계속 생성을 해서 뭐가 변했는지 지우지만 않으면 차곡차곡 쌓이는 거야. 그래서 옛날부터 했던 이력관리 같아. 그걸 이제 여러분들이 혈업에 들어가면 전문용어로 형상관리라고.
근데 요즘엔 젊은 친구들은 노션에서 캄반보드라고 하니까 대부분 캄반보드라는 용어로 일관되게 많이 써. 그래서 나도 거꾸로 형상관리라고 안하고 캄반보드 잘 만들었냐? 이렇게 얘기할 때도 많아. 좋더라고. 그건 뭐 받아들일 거는 받아들일지.
그래서 추적 가능해야 돼. 내가 뭘 건드렸는지 쿠팡에서 데이터 해킹이 됐을 때 누가 이걸 해킹을 해갔지라고 추적해서 잡았잖아. 이게 있었기 때문에. 여러분들이 데이터베이스에 접근을 하잖아요.
그러면 내 아이디가 있잖아 내 아이디 여러분들 학생 아이디 있잖아요 이걸 가지고 여러분들이 예를 들어서 도서관에 도서 정보를 무슨 책이 있는지 검색을 했어 그러면 우리 학교 데이터베이스 도서관리 시스템 데이터베이스에 여러분들이 몇 월
누가 조민재 학생이 오늘이 몇일이야? 4월 14일 14일 09시 52분에 뭐뭐를 검색한 게 기록이 다 돼 그게 이 흐름족보가 추적족보가
담겨있기 때문에 특히 이런 건 어디서만 있어? 금융권 은행에 누가 접속하고 누가 뭘 어디 어느 DB를 건드리고 누가 뭘 추적을 했고 뭘 검색을 했고 이런 것들 그리고 국정원 같은 정부인 것 이런 데
지금 계속 얘기하는 건 개념적인 흐름을 얘기를 해주는 거예요. 다 이걸 이해하라는 소리는 아니야. 이해하라는 소리는 아니지만 그래도 꼭 알아야 될 것들은 반복적으로 해줄 거예요. 데이터는 크게 두 가지 흐름을 열고 있어요.
뭐라 그랬죠? 여러분들 다 아는 거예요. 실시간 스트리밍 되는 데이터. 또 내용량 아니면 어느정도 작대로 매치. 스트리밍 데이터와 매치 데이터 형태가 우리가 건드려야 해요. 요 크게 두 개인데 여러분들이 가서 수집할 때는
수동적인 것, 원시적인 방식으로 수집을 하는 경우도 있지만 데이터가 엄청 양이 많고 실시간으로 계속 축적해서 스트리밍 데이터를 끌어와야 돼. 연결을 지켜야 돼. 그러면 이걸 손으로 하기는 한계가 있잖아. 그러다 보니까
실시간 처리하는 것을 웹클릭 스트리밍으로 자동으로 연동을 시켜놓고 또는 예를 들어서 주민재해장인은 MBP팀 같은 경우에는 지금은 그렇게 되어 있지만 예를 들어서 그게 생산 현장에 커피 인스턴트 커피 만드는 공장에서
센서를 통해서 계속 해야 된다면 실시간 스트리밍되는 데이터를 가져와야 되잖아 그러면은 요게 IoT 센서를 연결을 시켜야 되잖아 그치? 아 우리 영화 같은데 가끔 보면은 타 터지는 장면 나오죠 뭘로 해? 휴대폰 딱 놓고
내가 전화 걸어가지고 아 내가 봤는데 얼마 전에 넷플릭스에서 뭘 봤더라? 아 개.. 개새끼들인가? 아 씨.. 봤지? 아 거기에 그 장면이 나와 갑자기 문득 생산면 하는데 제목이 개 뭐던데? 한국 한국 드라마였어 넷플릭스에서 최근에
시리즈로 쓴거 아이가니 어? 그래 그래 사냥개들의 그 장면이 나와 에이 빨리 좀 얘기하지 어 봤지 그거 그 장면 커튼 뒤에 항아리에 응? 폭탄 설치해가지고 딱 거기다 휴대폰 묶어놓고
걔 누구야? 그 B, B, 레인이. 레인이 딱 전화 보니까 가다가 차에서 전화 보니까 빵 터지잖아. 이게 IoT 쓸 수 없어. 우리도 그렇게 한단 말이야. 좋은 거 가르쳐주더라고. 그래서 이거를 수집할 때 주로 쓰는 게
우리가 수집단계에서 카프카를 주로 많이 쓴다고 했죠? 그렇게 하는 거야 스트리밍 할 때 이거 가지고 하면 돼 그리고 이제 배치 처리할 때 배치 처리는 내가 끌어오고 싶을 때 끌어오면 돼요 한 달에 한 번 끌어오든 매일 끌어오든 한 시간에 한 번 끌어오든 초 단위로 끌어오든
또 누구는 이렇게 얘기하려고? 초단위로 끌어오는 거니까 스트리밍 아닙니까? 약간 나도 헷갈릴 때가 있긴 해. 근데 스트리밍은 저기서 자동 생성될 때 바로 연동돼서 IoT 센서, 센서를 통해서 바로 직시적으로 오는 걸 스트리밍이라고 그래. 근데 내가 1초마다 가져온다고 그래가지고 꼭 스트리밍은 아니에요.
나도 사실은 헷갈릴 때가 있었어 지금도 헷갈려서 하죠 그렇게 해서 고른 것들을 하죠 그리고 그 다음에 수집 엔진은 이런 정도고 저장소에서 데이터 정지하는 방법 이거를 이제
주로 정제하는 거는 어떻게 해요? 실시간으로 정제를 한다고 하더라도 사실은 실시간으로 되는 건 가져온 걸 가지고 정제를 하잖아 그럼 거의 배치성이라고 봐야 되지 여기서 이렇게 값 보면 중복 제거하거나 제일 우리가 이제
형식적으로 일반적인 데이터를 갖고 오면 공공데이터나 이런 거 행성데이터나 이런 걸 갖고 오면 여러분들도 많이 쓸 거야. 주소 데이터 있죠. 주소 데이터가 제일 개판이야. 우리나라는 행정동데이터가 있고 법정데이터가 있고 그리고 우리는 대구 같은 데만 해도
아파트가 갑자기 올라가지 아파트가 어느정도 올라가도 주소가 없어요 땅만 파도 땅만 판다고 그래서 주소가 생기는게 아니야 다 완공이 되고 그 어느정도 돼야지 주소를 부여를 해 그래서 수시로 주소는
수시로 변경이 됩니다. 길이 없다가 생기면 또 주소가 바뀌고 그래. 그러다 보니까 이런 게 나와. 그리고 옛날에 여러분들 태어나기 전에 2000년도에 YPK라는 게 있었어요. 1999년에서 2000년으로 넘어갈 때 난리났었어.
나도 그때 오 금융회사에서 그것 때문에 몇 달을 방금을 썼어. Y2K 전 세계적으로 우리나라만 되는 게 아니야. 그때까지는 1900년대까지는 주로 날짜데이터를 지금은 연도를 몇 자리로 잡아요? 연도 연도. 그렇지. 그때는 연도를
두 자리를 잡아서 지금은 yyyy로 잡지 yyyymmdd 그리고 hhmmss 이렇게 잡지 초까지 그런데 예전에는 1900년대까지는 yyy
MMRD 이렇게 잡았어. 그러다 보니까 이게 1999년은 이걸 날려버리고 1999년으로 인식시킨 거예요. 12월 31일. 근데
요 다음날 어떻게 돼? 요 다음날 요 다음날 1999년 12월 31일 다음날이 무슨 날이에요? 2000년으로 넘어가잖아 2000 빵빵년 01 01이 된단 말이야
얘처럼 99 그냥 01이면 1901년으로 가는 거 아닐까? 라고 다. 우리 시스템 체계도 다 두 자리로 했기 때문에. 엑셀에도 날짜를 집어넣으면 자동으로 생성이 되죠. 연도까지. 이것도 또
1900년으로 나오고 그리고 아예 2000년을 넘어가야 되는데 1900년으로 떨어지는 경우도 있고 이런 경우입니다. 그래서 이것 때문에 하던 비행기가 하늘에서 날짜가 변경이 안 돼가지고
떨어진다 추락한다 별일이 다 있었어요. 금융은행에서 이것 때문에 인출이 안 된다 그래가지고 돈 먼저 찾고 난리가 안 있었어요. 근데 사실 이것 때문에 혼란도 있었지만 이거에 대비를 굉장히 잘했어요. 이게 그때
Y2K라고 해가지고 이어 2000 이 K가 03개잖아 그건 알죠? K가 킬로 킬로예요 반응이 없어서 내가 죄송해요 아이가
이어 2000 그래서 y2킬러 그래서 2000년을 대비한다고 해서 이렇게 했었는데 이때 굉장히 혼란스러웠어 그래서 날짜 적용할 때 어디지? 날짜 형식 적용할 때 통일성이 있고 그리고
주소, 주소와 우편번호 이런 것들 그래서 여러분들이 사실은 이 데이터 정제하는 게 굉장히 일반적으로 노가다라고 해요. 지금은 여러분들이 대부분 데이터를 정형화된 데이터를 그냥 갖고 와서 하잖아.
그러니까 그런 건 없는데 이거를 생성하는 일을 많이 해요. 주로 정제 전에 원시 데이터 생성할 때 주로 원시 작업으로 이걸 많이 하는 게 그래서 은퇴한 5,60대 이런 분들이 인공지능을 위해서 굉장히 헌신을 합니다. 여러분들 잘 모르겠지만 무슨 작업을 하시냐면 데이터 네이블링 작업입니다.
본당 최저심권, 권당 100원, 의류 데이터 같은 것들. 그게 안 되면 그걸 데이터 레이블링을 어느 나라가 많이 했냐에 따라서 인공지능이 성숙이 되는 그런 척도도 나와요. 그리고 또 메타데이터에 데이터에 대한 설명 붙이는 것.
그리고 데이터 카탈로그 만드는 것 이런 것들이 굉장히 원시적이지만 무시할 수 없는 것 이런 것들이 많이 축적이 되고 많이 생산이 돼 있어야지 잘 엉망으로 돼 있으면 안 돼 잘 돼 있어야만 데이터 분석의 정확도도 높아지고
인공지능의 기반이 확실히 약해집니다. 이거는 넘어가도 될까. 이거는 자료는 올려놓을 테니까 다시 한번 여기는 쭉 그렇게 끌어
정리를 해놨으니까 한번 보시고
이거는 특별히 내가 설명을 안 해도 될 것 같아요. 이건 한번 읽어보세요. 머신러닝 엔진 보면은 이것도 오픈된 소스예요. 주로 우리가 학생들이 많이 할 수 있는 건 스파크 머신러닝 라이브러리를 찾아가지고 할 수 있어요.
이게 적에 올라와 있어 주로 많이 올라와 있는 데가 리눅스 그 랩 이라든지 으 음 기터부에 놀라워 있다 그리고 내 뭐 텐서 프로라든지 파이터치 파이터치 같은 요 핸스킬로는 이거는 학생 버전은 무상 인제 무상이에요
학생 버전은 무상인데 이건 유료 버전으로 써요. 학생 버전은 텐스프로가 이게 로우가 데이터 양이 있을까요? 내가 논문 쓸 때 저걸 한번 학생 버전으로 썼었는데 데이터가 많으면 이게 안 돼. 쓸 수가 없어. 그래서 그리고
쭉 읽어보면 될 것 같아요. 그리고 여러분들이 이제 현장에 나가면 이 CICD를 굉장히 아마 선배들이 방법론적으로 그런 얘기를 할게요. CICD를 꼭 써라. 이게 뭐냐면
분석가나 코드 개발자들이 속된 표현으로 내 꼴리 우리가 여기 13명이 있잖아 한 팀이야 예를 들어서 근데 하는 사람마다 제가 딱 어떻게 내가 꼴리는데 뭐하면 이게 정규화가 될까 안 될까
안 되잖아. 그래서 여기서 체계를 잡아서 하는데 노셔를 쓰라고 했던 이유는 또는 GitHub를 쓰라고 했던 거는 내가 뭘 변경했는지를 나머지 사람이 다 알잖아. 이런 거를 자동으로 관리해 주죠.
주게끔 유지하라는 얘기죠. 여기 말 그대로 CI는 뭐냐면 Continuous, 지속적으로 인테리어셔, 통합화를 시키라는 얘기예요. 나 혼자 지못대로 가지 마다는 얘기예요. 지못대로 가더라도 기록이 남겨져 있어야 된다. 그런데 그렇게 해서도 안 되지만
또 CD Continuous Delivery 지속적으로 Deployment 향상시키고 지속적으로 개발하고 지속적으로 배포하라는 그리고 CICD 지금은 여러분이 이 개념까지는 몰라도 돼요
참고해서 보세요. 딱 오늘 만칩시. 지각자. 잘한다. 질문. 시험 전에 따로 정리해 주시면. 우리 화요일이야? 목요일이야?
시험 언제야? 화요일이야? 목요일이야? 헷갈려 하는 친구들이 있어서 그래 내가 질문하는 거야 화요일 손 목요일 손 목요일 손 목요일 하나도 없는 거지 화요일 날 시험 목요일 날 이번 주 목요일 날 아쉽
7범위 정리를 해줄게. 안 해주려다가 너무 어려워하는 눈빛에서. 그런데 다시 얘기하지만 타이프라인 구조 그리고 여러분들 그 저기 비즈니스
분석하고 문제정의하는 그 범위하고 배웠던 내용 제가 목요일날 정리해주는 그 범위를 해서 할 생각 네