본문 바로가기

데이터과학61

[pyspark] GraphFrames 다루기 GraphFrames 생성하기 Vertex와 Edge DataFrames을 이용하여 GraphFrames를 만들 수 있습니다. Vertex DataFrame은 그래프의 각 Vertex에 대해 고유한 ID를 지정하는 "id"라는 특수 열이 포함되어야 합니다. Edge DataFrame은 "src"(source vertex ID of edge) 및 "dst"(destination vertex ID of edge)라는 두 개의 특수 열이 포함되어야 합니다. 두 DataFrame에는 임의의 다른 column을 포함할 수 있으며, 이러한 항목들은 edge 및 vertex의 속성을 나타낼 수 있습니다. GraphFrame은 edge 정보만을 포함하는 DataFrame을 통해서도 구성할 수도 있습니다. 이렇게 구성하.. 2022. 6. 7.
넷플릭스 데이터 과학자의 하루 지난 10년 동안 데이터를 다루는 역할이 급격히 늘어나면서 "데이터 과학자"라는 타이틀이 기술과 비즈니스 영역에서 포괄적으로 사용되는 용어로 등장했습니다. 해당 포지션은 특정 회사 내에서 또는 특정 산업 내에서 어떤 역할을 하게 될까요? 넷플릭스(Netflix)에서 데이터 과학자는 실험, 인과 추론, 기계 학습, NLP, 모델링, 그리고 최적화를 포함하여 기술 전문화의 여러 영역의 업무를 수행하고 있습니다. 데이터 분석 및 데이터 엔지니어링과 함께 넷플릭스에서는 더 큰 중앙 집중식 데이터 과학 및 엔지니어링 그룹을 구성하고 있습니다. 데이터를 통한 학습은 Netflix의 DNA라고 할 수 있습니다. 유사 실험을 통해 스트리밍 경험을 지속적으로 개선하여 회원에게 버퍼링 시간을 줄이고 비디오 품질을 향상시킬.. 2021. 4. 2.
LSTM 또는 CNN을 이용한 주가 예측 LSTM은 보통 순차 데이터의 이동 알고리즘으로 간주되어 왔으며 CNN은 보통 이미지 데이터 처리를 위한 최고의 알고리즘으로 간주되었습니다. LSTM 또는 기타 Recurrent Neural Network (RNN)와 동등하거나 더 나은 문자 수준 CNN의 사용에 대한 많은 논문이 출판되었습니다. 이 가설을 테스트하기 위해 두가지 알고리즘을 시계열 분석의 전형적인 사례인 주가 예측에 구현해보겠습니다. 실험에서 서로 다른 두 알고리즘이 어떻게 일치하는지에 대한 공정한 비교를 제공하기 위해 이러한 각 알고리즘의 작동 방식에 대한 컨텍스트를 제공해야합니다. LSTM LSTM은 알고리즘 출력에 대한 기능을 제공하는 많은 신경망으로 구성된 반복 신경망의 한 유형입니다. 예를 들어 중복 신호의 가중치를 줄 이도록 .. 2021. 1. 31.
머신 러닝 기반의 금융 사기 탐지: 불균형 데이터를 다루는 방법 수년 동안 사기꾼들은 신용 카드나 직불 카드에서 숫자를 가져 와서 빈 플라스틱 카드에 인쇄하여 오프라인 상점에서 사용했습니다. 그러나 2015년에 Visa와 Mastercard는 은행과 가맹점에 EMV(칩 카드 기술)를 도입하도록 의무화했으며,이를 통해 가맹점은 각 거래에 대해 PIN을 요청할 수 있었습니다. 그럼에도 불구하고 전문가들은 온라인 신용 카드 사기가 2020년에 무려 32 억 달러까지 치 솟을 것이라고 예측했습니다. 이 금액은 Coca-Cola (20 억 달러), Warren Buffet의 Berkshire Hathaway (240 억 달러), 그리고 JP Morgan Chase (235 억 달러)와 같은 일부 전 세계 우량 기업의 2017년 수익보다 큰 금액입니다. 칩 카드 기술을 구현하는.. 2021. 1. 23.
60세 이상을 위한 모바일 뱅킹 앱, 왜 안 되는가 (UI / UX 연구 사례) 요약 이펜디(Taufik Efendi)는 Purwadhika Startup & Coding School에서 사례 연구에 기반한 디자인 프로젝트를 진행했습니다. 모바일 뱅킹을 디자인하기 위한 프로젝트는 이펜디, 사라, 빌리게 함께 팀을 이뤄서 진행했습니다. 셋은 프로젝트 진행에 앞서 BTS Bank에 전화했습니다. BTS Bank는 노인들의 생활과 재정을 저축, 거래, 관리 할 수 있도록 설계된 모바일 뱅킹 앱입니다. 이펜디팀 노인들의 요구를 충족시킬 새로운 모바일 뱅킹 앱을 설계했습니다. 디자인 챌린지 “일반적인 모바일 뱅킹 앱은 특정 연령대만 수용하고 다른 연령대는 무시하는 디자인으로 만들어지는 경우가 많았습니다. 노년층과 다른 사람들이 쉽고 성공적으로 사용할 수있는 노령 친화적인 디자인과 기능을 제공.. 2021. 1. 22.
기계 학습 기반의 신용평가 모형 개발과 신용 점수 계산 신용 점수는 사람들의 신용도를 측정하여 숫자로 표현한 것입니다. 은행은 일반적으로 신용 신청에 대한 의사 결정을 위해 이 점수를 활용합니다. 이 블로그에서는 고객의 신용도를 측정하기 위해 가장 인기 있고 가장 간단한 신용 점수 형식인 표준 스코어 카드를 Python (Pandas, Sklearn)을 사용하여 개발하는 방법에 대해 설명하겠습니다. 프로젝트 동기 오늘날 신용도는 개인을 얼마나 신뢰할 수 있는지 나타내는 지표로 간주되기 때문에 모든 사람에게 매우 중요합니다. 다양한 상황에서 서비스 공급자는 먼저 고객의 신용을 평가한 다음 서비스 제공 여부를 결정합니다. 그러나 전체 개인 포트폴리오를 확인하고 신용 보고서를 수동으로 생성하려면 시간이 많이 걸립니다. 따라서 신용을 점수로 계산하면 시간을 절약하고.. 2021. 1. 20.