본문 바로가기

전체 글46

데이터 분석(R, 파이썬, 엑셀) * 주요 분석 언어 및 도구 * R, 파이썬, 엑셀의 차이 R PYTHON EXCEL 개요 - 통계 계산과 그래픽을 위한 오픈소스 프로그래밍 언어 - 뉴질랜드 오클랜드 대학의 로버트 젠틀맨과 로스 이하카에 의해 시작 - 1991년 귀도 반 로섬이 발표한 오픈소스 프로그래밍언어 - 마이크로 소프트 오피스 제품 중 하나 - 스프레드시트 프로그램 장점 - 데이터시각화 (ggplot2, rChart등) - 넓은 생태계 - 풍부한 통계함수 - 다양한 API를 이용한 시스템 확장 - Tensorflow들의 딥러닝 개발 언어 - 타 개발 언어대비 높은 생산성 - menu 클릭 방식의 쉬운 활용 - 빠른 보고서 작성 단점 - 상대적으로 느린 속도 - 메모리 한계 - 분석이외의 활용성 제약 -R에 비해 부족한 통계 함수.. 2021. 12. 30.
정형 데이터/ 비정형 데이터 정형데이터 반정형 데이터 비정형데이터 Structured Data Semi-structured Data Unstructured Data 엑셀 등의 스프레드시트에서 작업하듯 열과 행을 정리하여 일목요연하게 표로 만들 수 있는 데이터 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형데이터의 한 형태 (출처: 위키피디아) 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터 정형데이터를 쉽게 다루기 위해 관계형 데이터베이스(RDB)가 활용되기도 한다. 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리가 어렵다. ->파싱(Parsing 필요) 정형데이터를 다루는 RDB에서 활용이 불가능하다. 정형데이터를 File로 변환시: CSV(Co.. 2021. 12. 28.
크롤링이란(Crawling) 크롤링이란? - 다양한 정보를 활용하기 쉽도록 수집하는 행위 - 크롤링을 하는 프로그램을 크롤러(Crawler)라고 함 - 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러(Web Crawler) 2021. 12. 28.
텐서플로우(Tensorflow)와 파이토치(PyTorch) 1. 딥러닝 프레임워크 - 딥러닝 구현을 쉽고 편하게 할 수 있도록 도와주는 소프트웨어 - 종류: TensorFlow, PyTorch, Keras, Caffe / Caffe2, Theano, MXNET, CNTK 등... 2. TensorFlow - Python을 사용하는 오픈소스 소프트웨어 라이브러리 - Originally developed by Google Brain Team - DeepMind, Uber, AirBnB, Dropbox 같은 기업에서 사용 3. PyTorch - Lua라는 언어로 작성된 Torch library의 Python 후속 제품 - Facebook AI Research group에서 개발됨 - Twitter, Salseforce, Stanford University, UDACI.. 2021. 12. 27.