728x90
- 요즘 세상은 빅데이터를 사용하지 않는 곳이 없다!
- 여러 분야에서 빅데이터를 사용하여 신속한 의사결정을 내릴 수 있고, 리스크를 예측하여 생산성을 향상시킨다
- 빅데이터에 관해 알아보자!
빅데이터 정의
빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
즉, 데이터베이스 등 기존의 데이터 처리 응용 소프트웨어로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다.
- 위키백과
- 쉽게 이야기 하면 빅데이터는 방대한 양의 데이터라고 볼 수 있다
- 하지만 데이터세트가 크다고 빅데이터라고 부르지 않는다.
- 빅데이터가 되기위한 5가지 요건은 다음과 같다
빅데이터 요건 5V
- Volume(크기)
- 데이터량
- Velocity(속도)
- 실시간 데이터를 활용해 재무 기회를 포착하고 고객의 요구에 대응함
- Variety(다양성)
- 정형데이터만으로 구성된 데이터집합은 빅데이터가 되지 않음
- 일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성
- 기존 데이터베이스, 데이터베이스 관리 도구의 경우 빅데이터를 구성하는 복잡한 데이터 세트를 관리할 유연성과 범위가 부족
- Veracity(정확성)
- 데이터가 많다고 해서 가치있는 데이터는 아님
- 데이터는 정확성, 관련성, 적시성을 지닌 경우에만 가치가 있다
- 비정형 데이터의 경우 진실성의 문제가 있음. 사람의 편견, 소셜 노이즈, 데이터 출처 문제는 데이터 품질에 큰 영향을 준다
- Value(가치)
- 빅데이터 분석은 기업에게 경쟁우위와 회복탄력성을 확보하고, 고객 서비스를 향상하도록 지원할 인사이트를 제공해야함
빅데이터의 유형
빅데이터는 3가지 유형으로 분류된다. 이 중 비정형데이터와 반정형 데이터가 빅데이터에 포함된다
- Structured data(정형 데이터)
- Unstructured data(비정형 데이터)
- Semi-structured data(반정형 데이터)
정형 데이터
- 행과 열의 레이아웃이 사전 정의된 엑셀을 생각할 수 있다
- ex) 재무 데이터, 시스템 로그, 인구 통계 상세정보 등
- 조직화, 검색이 가장 간단함 -> 데이터베이스 설계자와 관리자는 검색 및 분석 알고리즘을 간단하게 정의 가능
- 정통적으로 데이터베이스는 SQL언어로 관리
- 정형 데이터 자체로는 관리가 간단하기 때문에 빅데이터 정의 요건을 충족하지 못함
비정형 데이터
- 표준적인 행-열 관계형 데이터베이스로 분석하기 쉽지 않음
- ex) 소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 고객 의견
- 해당 데이터를 분석하여 이해가능한 잠재적 가치는 아주 높지만, 큰 비용이 듦
- 데이터레이크, 데이터 웨어하우스, NoSQL 데이터베이스에 저장함
반정형 데이터
- 정형, 비정형 데이터의 하이브리드
- ex) 전자메일(메시지 본문은 비정형, 발신자/수신자/제목/날짜 정형), 지리 태그, 타임스탬프, 시맨틱 태그를 사용하는 장치, 스마트폰 이미지(촬영 기간, 장소)
- AI 기술로 구동되는 최신 디비는 이런 유형의 데이터를 즉시 식별하여 실시간으로 알고리즘을 생성, 관련된 다양한 데이터 세트를 효과적으로 관리, 분석함
빅데이터의 예시 및 활용방법
빅데이터는 크게 소셜데이터, 머신데이터, 거래데이터가 있다
- 제조업: 공장의 가동 상황 -> 제조 프로세스 개선, 생산성 향상, 설비문제 조기 발견
- 의료업: 의료정보 -> 의료정보 활용
- 은행업: 현금회수, 재무관리 등
- 소매업: 시장정보 -> 고객만족도를 판단, 신재품 개발의 투입 시기 계산
- EC업계: 판매데이터 관리, 고객가구 데이터 -> 기업에 지속적인 경쟁 우위를 가져옴
- 교육업: 학습 이력, 행동 이력 -> 성적과 학습 행위 사이 관계 파악, 학습 평가 및 각종 예측 가능
- 여행업: 고객의 흥미와 행동 특징 데이터 -> 여행 수요 예측
- 농업: 농사관련 빅데이터 -> 디지털 기술 도입, 생산성 향상, 리스크 예측
- 정부: 국민, 경제성장, 에너지 자원, 교통 정보 -> 정책 결정
- IoT 기기
빅데이터 사용 장점
- 상황을 파악
- 고객리뷰, 문화 트랜드 등의 빅데이터를 분석
- 조직 전체의 경영상황, 업무의 진척 상황 등을 파악 가능
- 신속한 의사결정이 가능하다
- 기술 도입 시기 찾기
- 제품 개선 가능
- 새로운 비즈니스 기회를 발견
- 기업은 기존 제품, 바이어와 공급자, 소비자 정보를 수집하고 분석하여 새로운 비즈니스를 창출할 수 있다
- 비용 절감 및 효율성 향상
- 회복탄력성, 리스크 관리 용이
- 프로세스, 정책을 효율적으로 개선(유지보수 비용 줄이기)
- 경쟁력 강화 가능
- 고객 중심 제품과 서비스, 경험을 구축
- 고객을 만족시킬 수 있음
빅데이터 기술
1. 빅데이터 아키텍처
- 기업데이터를 분석/관리하는 방법의 기본 구조
2. 빅데이터 분석
- 특성에 맞는 알고리즘과 데이터모델링으로 의미 있는 데이터를 시각화
3. 아파치 하둡
- 하둡은 여러 대의 컴퓨터가 연결된 네트워크에서 분산된 빅데이터 처리를 관리하기 위한 오픈소스 프레임워크
- 여러 대의 컴퓨터를 거의 무한으로 확장 가능한 네트워크로 클러스터링하고, 데이터를 병렬로 분석함
4. 데이터 레이크, 데이터 웨어하우스, NoSQL
- 정형데이터가 아닌 비정형, 반정형 데이터베이스는 범주화되지 않음
- 전통적이지 않은 데이터 세트를 관리하는 저장소
- 데이터 레이크: 아직 처리되지 않은 대규모 원시데이터 풀
- 데이터 웨어하우스: 특정 목적을 위해 이미 처리된 데이터 저장소
- NoSQL데이터베이스는 처리 시점에 데이터의 특성에 맞게 수정할 수 있는 유연한 스키마를 제공
5. 인메모리 데이터베이스
- 관계형 DB 기술은 정형데이터는 처리할 수 있지만, 비정형 데이터의 처리 및 저장에는 적합하지 않음
- 인메모리 데이터베이스를 사용하여 RAM에서 처리와 분석이 이루어지도록 함
- 분산 아키텍처를 기반으로 함 -> 빠른 속도 기대가능
빅데이터 활용 툴
데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.
– 브랜든 퍼셀(Brandon Purcell), 애널리스트, Forrester Research
- 빅데이터는 인공지능, 머신러닝, 최신 데이터베이스 기술을 사용하여 시각화하고 분석할 수 있다
- 빅데이터는 (1)수집 (2)저장 (3)분석 순으로 처리된다
- DI툴: Tableau, FIne Report
- 데이터 마이닝 툴: Python, R
- 데이터 시각화 라이브러리: Echarts, Highcharts
- 데이터 맵: PowerMap, Polymaps
참고자료
https://www.sap.com/korea/products/technology-platform/what-is-big-data.html
728x90
'CS' 카테고리의 다른 글
API vs Library vs Framework (0) | 2023.11.27 |
---|---|
토큰 이코노미 시대? NFT가 뭘까? (0) | 2023.09.09 |
보일러플레이트 코드란?(Boilerplate code) (0) | 2023.06.21 |
SOLID: 객체지향 5대 원리 (2) | 2023.01.27 |
REST API(+ springboot 예제) (0) | 2023.01.23 |