AIFFEL
Exprolation 17 난 스케치를 할 테니 너는 채색을 하거라 조건 없는 생성모델(Unconditional Generative Model), GAN 만약 GAN으로 MNIST data를 생성해낸다면 아래와 같이 생성될 것이다. 여기서 우리는 7이라는 숫자가 생성되기를 원하지만 GAN은 일정 확률로 0~9까지의 숫자를 만든다. 따라서 우리가 원하는 7이라는 값을 얻기 위해서는 수많은 노이즈를 생성해 넣어야할지도 모른다. 즉 일반적인 GAN과 같은 unconditioned generative model은 내가 생성하고자 하는 데이터에 대해 제어하기 힘들었다. 조건 있는 생성모델(Conditional Generative model), cGAN Conditional Generative Adversarial..
Exploration 16 다음에 볼 영화 예측하기 Session-Based Recommendation Session-Based Recommendation이란? 세션 데이터를 기반으로 유저가 다음에 클릭 또는 구매할 아이템응ㄹ 예측하는 추천 Session: 유저가 서비스를 이용하면서 발생하는 중요한 정보를 담은 데이터를 말하며, 블라우저가 조료되기 전까지 유저의 행동을 담은 시퀀스 데이터 사용데이터: YOOCHOOSE, 추천 엔진 솔류션 회사에서 공개한 E-Commerce데이터 유저에 대한 정보를 전혀 알 수 없다.(성별, 나이, 장소, 마지막 접속 낳짜, 이전 구매 내역 등등) 아이템에 대한 정보도 전혀 알 수 없다.(실제로 어떤 물건인지, 사진이나 설명, 가격) 비로그인 상태로 탐색하는 유저가 많다...
Fundamental 31 뉴스기사 크롤링 및 분류 HTML과 태그 크롤링(crawling)이란? 웹 페이지로부터 데이터를 추출하는 행위를 말한다. 크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다. 우리는 인터넷 익스플로러, 크롬등과 같은 인터넷 브라우저를 사용하여 인터넷 세상으 돌아다닌다. 이 웝 사이트들은 실은 HTML(HyperText Markup Language)이라는 마크업 언어롤 작성된 문서로 구성되어 있다. HTML과 태그(Tag) 이것은 HTML 문서입니다! HTML 문서는 기본적으로 정해진 문법을 지키며 작성되어 있다. 네이버 HTML 소스코드의 일부 네이버뉴스 연예 스포츠 선택자 선택자(Selector) 원활한 크롤링을 위해서는 HTML 문서 내의 선택자(Selector)를 이..
Exploration 15 문자를 읽을 수 있는 딥러닝 기계가 읽을 수 있나요? 사람이 문자를 읽는 방법 문자를 인식 인식한 문자를 해독 컴퓨터 비전에서의 용어 Detection Recognition 구글 OCR API def detect_text(path): """Detects text in the file.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.text_detection(..
Fundamental 30 컴퓨터 파워 UP 멀티태스킹이란? 빅데이터를 다루기 위해서는 몇 가지 중요한 개념들을 알아야 한다. 그 중 하나는 컴퓨팅 자원을 활용하여 여러 가지 일을 효율적으로 진행하는 것이다. 예를들어 주방장 1명이 라면 1개를 끓여 고객에게 서빙하는데 걸리는 시간은 아래와 같이 총 10분이 걸린다. 이렇게 하면 주방장은 1시간에 라면을 6개밖에 끓이지 못한다. 따라서 동시성과 병렬성의 아이디어를 사용하면 이 문제를 해결해 준다. 동시성 (concurrency) 동시성이란? 하나의 processor가 여러 가지 task를 동시에 수행하는 개념 실제로는 processor는 특정 순간에는 1가지 task만을 수행하겠지만, 물을 끓이는 것처럼 다른 task를 수행할 수 있는 시간에는 task를..
Exploration 14 아이유팬이 좋아할 만한 다른 아티스트 찾기 추천 시스템이란 게 뭔가요? 협업 필터링 vs 콘텐츠 기반 필터링 협업 필터링은 다수의 사용자의 아이템 구매 이력 정보만으로 사용자간 유사성 및 아이템 간 유사성을 파악하지만, 콘텐츠 기반 필터링은 아이템의 고유의 정보를 바탕으로 아이템 간 유사성을 파악한다. 다시 말해, 협업 필터링에서는 아이템과 사용자 간의 행동 또는 관계에만 주목할 뿐 아이템 자체의 고유한 속성에 주목하지 않고 콘텐츠 기반 필터링에서는 아이템 자체의 속성에만 주목하고 사용자와 아이템 간의 관련성에는 주목하지 않는다. 협업 필터링을 바로 사용할 수 없게 만드는 세가지 제약 조건 시스템이 충분한 정보를 모으지 못한 사용자나 아이템에 대한 추론을 할 수 없는 상태인 콜..
Fundamental 29 사이킷런을 활용한 추천 시스템 입문 추천 시스템이란? 추천 시스템이란? 사용자(user)에게 관련된 아이템(item)을 추천해 주는 것 ex. 영화 추천 A: 한국 드라마/영화, 로맨스물 B: 미국 드라마/영화, 액션물 부부의 세계, 스파이더맨 파 프롬 홈, 타짜가 상영중일 때, 어떤 걸 추천해 주면 좋아할까? A에게는 부부의 세계, B에게는 스파이더맨 파 프롬 홈 이렇게 영화들을 좌표평면에 놓았을 때, 거리가 좁으면 유사도가 높다고 생각할 수 있다. 그럼 만약 (C:21살, 여성, 대한민국, 학생, 서울)이라는 새로운 개인정보가 들어왔을 때는 어떻게 추천해 줄까? A: 32살/여성/대한민국/마케팅/인천 B: 41살/남성/미국/군인/용산 위에 A,B의 개인정보가 다음과 같다면 ..
Fundamental 28 정보이론 톺아보기 Information Content 정보 이론(information theory)이란? 추상적인 정보라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야이다. 왼쪽과 오른쪽 주머니에서 공을 하나씩 뽑아 나열한다고 가정할때 오른쪽보다 왼쪽이 더 정보량이 많다. 그렇다면 만약 파란색공999개와 빨간색공 1개가 들어있는 주머니가 있고 공을 하나거내고 다시 넣는 실험을 반복할때 처음의 파란공은 정보량이 높지만 수십, 수백번의 반복뒤에 파란공은 확률이 1에 가깝기 때문에 정보량이 매우 낮다. 반면에 빨간공은 정보량이 매우 높을 것이다. 정보를 정량적으로 표현하기 위해 필요한 세 가지 조건 일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가..
Exploration 13 인간보다 퀴즈를 잘푸는 인공지능 KorQuAD Task KorQuAD 데이터셋 KorQuAD(The Korean Question Answering Dartaset, 한국어 질의응답 데이터셋) 이 데이터셋은 미국 스탠퍼드 대학에서 구축한 대용량 데이터셋인 SQuAD를 벤치마킹한 것이다. 자연어처리 분야에서 기꼐독해 태스크는 머신이 자연어의 의미를 정확하세 이해하고 사람의 질문에 정확하게 답변할 수 있는지를 측정하는 아주 중요한 분야이다. # imports from __future__ import absolute_import, division, print_function, unicode_literals import tensorflow as tf import tensorflow.ke..



