본문 바로가기

데이터과학/업계 이야기16

Deep Few-Shot 이상탐지 라벨이 정의된 몇 개의 anomaly 예제를 활용하는 이상탐지 수행 일반적으로 기존의 이상탐지 기법은 레이블 있는 anomaly 테이터가 부족하기 때문에 비지도 학습 (완전히 레이블이 지정되지 않은 데이터에 대해 학습 됨) 또는 반지도 학습 (배타적으로 레이블이 지정된 정상 데이터에 대해 학습 됨)을 이용했습니다. 결과적으로 실제 많은 이상탐지 애플리케이션은 레이블 정보가 있다 하더라도 이와 같은 사전 지식이 탐지 기술에 지렛대 역할을 하지 못합니다. 이렇게 제한된 labeled anomalies 정보는 배포 된 감지 시스템(예 : 성공적으로 감지 된 네트워크 침입 기록 몇 개)에서 비롯되거나 고객이보고하고 은행에서 확인한 소수의 사기성 신용 카드 거래와 같은 사용자로부터 발생할 수 있습니다. 매우 적은.. 2020. 11. 11.
디지털 광고에서 데이터 과학자의 역할 디지털 마케팅은 마케팅 전반에 결쳐서 중요한 역할을 하고 있습니다. 수년에 걸쳐 광고 분야를 선점했던 신문 및 잡지와 같은 인쇄물 형태는 디지털 플랫폼의 등장과 함께 점유율이 크게 감소했습니다. 요즘 디지털 미디어를 통한 광고비 지출은 텔레비전 광고와 비슷한 수준이지만 성장률을 훨씬 가파르게 증가하고 있습니다. 2018년 디지털 광고의 성장률은 12 %, 텔레비전은 0.5 %입니다. 이러한 변화하는 행동은 두 가지 주요 요인으로 설명 할 수 있습니다. 현대인들은 디지털 매체를 통해 소비하는 시간이 증가하고 있으며, 특정 그룹을 타켓팅 할 수 있는 디지털 마케팅만의 장점을 들 수 있습니다. 후자는 효과적인 캠페인을 제공하기 위해이 매체에서 수집 및 분석되는 방대한 양의 데이터 분석을 통해 가능해졌습니다. .. 2020. 11. 11.
영어를 매개로 하지 않고 100개 언어를 직접 번역하는 AI 모델 Facebook AI가 영어 데이터에 의존하지 않고 100 개 언어 쌍을 번역 할 수 있는 최초의 다국어 기계 번역 (MMT) 모델 인 M2M-100을 소개했습니다. 여기에서 오픈 소스 코드를 확인할 수 있습니다. 예를 들어 중국어를 프랑스어로 번역 할 때 대부분의 영어 중심의 다국어 모델은 영어 학습 데이터가 가장 널리 사용 가능하기 때문에 중국어에서 영어로, 영어에서 프랑스어로 학습합니다. Facebook AI 모델은 의미를 더 잘 보존하기 위해 중국어에서 프랑스어 데이터로 직접 학습합니다. 기계 번역을 평가하는 데 널리 사용되는 BLEU 측정 항목에서 영어 중심 시스템보다 10 점 더 우수한 성능을 보입니다. M2M-100은 총 2,200 개의 언어 방향으로 교육을 받았으며, 이는 이전 최고의 영어.. 2020. 11. 11.
실리콘 밸리에서도 주목받고 있는 토폴로지 데이터 분석 Slideshare를 통해서 토폴로지 데이터 분석(Topological Data Analysis, TDA)에 대한 발표 자료를 2014년 4월에 공유했다. 슬라이드 쉐어에서는 나의 슬라이드를 본 사람들이 어떤 경로로 찾아왔는지에 대한 정보와 어느나라 사람들이 주요하게 관심을 갖고 있는지의 여부를 자동으로 분석해주는 기능이 있어서 한번 살펴봤다.한국 사람중에 나의 슬라이드를 본 사람들은 대부분 얼굴책 등에서 내가 공유한 것을 보고 링크를 타고 온 사람들이라고 생각된다. 하지만 미국이나 독일에서 슬라이드를 본 사람은 분명히 검색을 통해서 나의 토폴로지 데이터 분석 슬라이드를 찾았을 것이다. 또한, 아래 그림 중에서 국가별로 슬라이드를 '본 사람 수'의 그래프에서도 볼 수 있듯이 토폴로지 분석은 미국, 독일,.. 2015. 3. 18.