본문 바로가기
컴퓨터 공부/데이터사이언스

정형 데이터/ 비정형 데이터

by 구깨비 2021. 12. 28.
정형데이터 반정형 데이터 비정형데이터
Structured Data Semi-structured Data Unstructured Data
엑셀 등의 스프레드시트에서 작업하듯 열과 행을 정리하여 일목요연하게 표로 만들 수 있는 데이터 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형데이터의 한 형태 (출처: 위키피디아) 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터
정형데이터를 쉽게 다루기 위해 관계형 데이터베이스(RDB)가 활용되기도 한다. 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리가 어렵다.
->파싱(Parsing 필요)
정형데이터를 다루는 RDB에서 활용이 불가능하다.
정형데이터를 File로 변환시:
CSV(Comma Separated Values),
TSV(Tab Separated Values)
JSON, XML, HTML 분석을 위해서는 비정형 데이터를 정형화하는 다양한 과정이 필요하다.

댓글