Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

R에서 데이터 허드렛일 줄이기

1 281 vues

Publié le

KOSSCON 발표자료. 2018.11.29.
R을 활용해서 데이터 분석의 전 과정을 처리하고, 그 중에서도 특히 가장 난관인 데이터 전처리시에 고려할 수 있는 점들에 대해 설명합니다.

Publié dans : Données & analyses
  • Identifiez-vous pour voir les commentaires

R에서 데이터 허드렛일 줄이기

  1. 1. R에서의 데이터 허드렛일 줄이기 권정민 (cojette@gmail.com)
  2. 2. R 언어의 사용 형태 ● 다양한 국가, 다양한 분야 ● 중심이 없는 분산된 네트워크 형태의 커뮤니티 ● 하위문화집단의 다양성과 각 집단의 가치를 존중하고 이를 공유하는 것을 장려함 ● 다양한 배경의, 다양한 데이터 분석에 대한 방법과 가치, 의미를 공유할 수 있도록 함.
  3. 3. 머신 러닝과 데이터
  4. 4. 머신 러닝 데이터셋의 조건 ● 잡음 없는 깔끔한 데이터 ● 일관성 ● 유형의 단순성 ● 명확한 예측 변수와 종속 변수 ● 척도화된 이산적 데이터
  5. 5. 대부분의 데이터의 현실 ● 가공되지 않은 지저분한 파일들 (좋게 말해서 원석) ● 비슷한 데이터가 다양한 소스에서 나옴 ● 데이터셋은 큼 (크다고 다 좋을까) ● 명확하게 정의되지 않은 많은 데이터 항목들 ● 서로 다른 범주 및 메타데이터 ● 정리되지 않은 비정형 데이터 ● 오타, 데이터 누락, 정돈되지 않은 포맷, 잘못 들어간 데이터 ● 기타 등등… (자세한 내용은 생략한다) Tidy datasets are all alike but every messy dataset is messy in its own way
  6. 6. Tidyverse 데이터의 대부분의 처리 과정을 지원하는 R 패키지 컬렉션
  7. 7. ● 텍스트 패턴 처리 ● 텍스트로 이루어진 데이터 클렌징 ● R에서 여러 가지 타입 모두 지원 ○ PCRE: perl=TRUE 옵션 명기 Regular Expression 패턴 처리를 활용한 데이터 클렌징
  8. 8. Out of the Box 최대한 사용 가능한 문제 전환 ● 회귀 문제를 분류로 (반대도 가능) ● 수치형 변수를 범주형 변수로 (반대도 가능) ● 글자 데이터(범주형)를 문서 형태로 ● 기타 등등 최대한 짜내어 본다
  9. 9. 보통의 구매 데이터 Usage ● Recommendation System ○ Similar products ○ Shops you may like ● Customer Anaysis ● Marketing ● Etc. 음식 명명법의 다양함 ● 후라이드치킨 ○ 크리스피치킨 ○ 후라이드 치킨 ○ 마일드치킨(Mild) ○ 오리지널치킨 ○ 닭강정✮ ○ 써프라이드 - 보통맛 ○ 소이갈릭스 ○ 1. 치즐링 ○ A. 순살후라이드 ○ 마라치킨(⿇辣) ○ …. (그림 및 유사 내용 출처: https://www.wired.com/story/how-grubhub-analyzed-4000-dishes-to-predict-your-next-order/)
  10. 10. N:N 관계의 데이터 식당 ● 한 식당에는 여러 종류의 음식을 판다 ● 식당의 주 메뉴와 맛있는 메뉴는 다를 수 있다 고객 ● 대부분의 사람은 여러 종류의 음식을 먹는다
  11. 11. TF-IDF를 사용해서 추천 엔진을 만들어보자 단어 정제 ● 정규표현식과 규칙들을 적용해서 메뉴명을 통일성 있게 만들어본다
  12. 12. 구매 데이터를 문서로 식당 문서 ● 깔끔해진 음식명을 활용해서 고객과 식당(아이템)의 데이터를 문서로 만든다
  13. 13. 구매 문서의 텍스트 마이닝 Tidytext ● 'dplyr', 'ggplot2' 등의 다양한 R의 패키지 기능을 활용해서 R에서 손쉽게 텍스트 마이닝을 할 수 있도록 도와주는 패키지 예제
  14. 14. 유사도 행렬을 이용한 추천 ALS 알고리즘 ● 고객과 식당(Item) 매칭
  15. 15. 정리 머신 러닝 데이터 머신 러닝에는 일반 데이터 분석보다 더욱 정제된 데이터가 필요하고, 그런 데이터는 어떻게 만들어 볼 수는 있다. R로 데이터 만들어보기 Tidyverse + 정규 표현식 + 문제 비틀기
  16. 16. The Era of Data Wrangling is coming….

×