“딱 보니, 제이미”…구글, 머신러닝으로 사진 분류 척척

출시 3개월만에 1억명 모은 구글포토…비밀은 머신러닝
구글, 메일·검색 등 모든 분야에 적용
슈미트, “내가 지금 개발자라면 머신러닝 배우겠다”

2014년 선다 피차이 구글 CEO(당시 부사장)는 사진을 저장관리하는 ‘구글포토’ 개발팀을 비밀리에 꾸렸다. 스마트폰과 디지털 카메라 등장으로 사진 관리 수요는 폭발적으로 늘었지만, 구글이 내놓은 사진 관리 서비스 ‘구글 플러스’와 ‘피카사’는 복잡하기 짝이 없었다. 안드로이드와 검색을 개발하던 유능한 인재들이 구글포토 개발팀에 속속 합류했다.

상품 총괄 매니저(PM)는 구글이 인수한 스타트업 범프 출신인 크리스 페리씨가 맡았다. 젊은 PM과 팀원들은 메뉴 구성부터 사진 저장 방법까지 사소한 것을 두고도 거의 매일 싸우다시피 격렬하게 토론했다. 팀의 목표는 흔들리지 않았다. ‘누구나 쓸 수 있는 단순하고 편리한 포토 갤러리(사진첩) 만들자.’

개발팀의 목표에 날개를 달아 준 것이 기계가 스스로 배우는 ‘머신러닝(Machine Learning·하단 용어 설명 참조)이었다. 구글포토는 사람이 일일이 꼬리표(태그)를 달지 않아도 사람과 사물을 인식하고 이름까지 붙여 자동 분류해준다. 제이미 사진은 제이미 사진끼리, 데이비드 사진은 데이비드 사진끼리 모아서 볼 수 있다. 스마트폰과 디지털 카메라로 매일 수십, 수백장씩 사진을 찍는 현대인에게 구글포토는 사진을 분류해주는 비서 한 명을 붙여준 것이나 다름 없었다.

10일 일본 도쿄 롯폰기 힐즈 클럽에서 열린 ‘구글 아시아태평양 지역 간담회’에서 만난 페리 구글포토 매니저는 “복잡하고 어려운 논문의 이론들을 실제 서비스로 구현했다는 데 자부심을 느낀다”면서 “이제 구글의 이미지 인식 기술은 인생에 비유하면 곧 대학교에 입학할 성인 수준”이라고 말했다. 지난 5월 출시한 구글포토는 3개월 만에 전 세계 1억명이 다운받을 정도로 인기였다. 구글포토의 이미지 인식 정확률은 99% 이상이다.

◆ 구글, 올드 모델 버리고 머신러닝 장착

검색으로 인터넷 세계를 평정한 구글이 머신러닝으로 거듭나고 있다. 머신러닝이란 기계가 스스로 데이터를 분류하고 이를 통해 미래를 예측하는 기술과 방법론을 말한다. 한마디로 컴퓨터가 스스로 배워 판단 능력을 갖추는 것이다.

구글은 구글의 성공을 이끌었던 방법론을 버리고 구글 검색, 스팸 제거, 음성 인식, 사진 검색 등 거의 모든 분야에 머신러닝 기술을 장착 중이다.

기존 방법론은 프로그래머가 컴퓨터를 위해 정교한 규칙을 만들고 컴퓨터가 이 규칙에 따라 일을 처리하는 것이었다. 머신러닝은 출발점이 다르다. 컴퓨터가 엄청난 규모의 데이터를 바탕으로 스스로 배우면서 규칙을 만든다.

구글은 머신러닝 기술을 적용한 후 스팸 메일을 99%까지 걸러낸다고 밝혔다. 또 바쁜 현대인을 대신해 이메일 답변을 써주는 ‘스마트 리플라이(Smart Reply)’도 내놓았다. 가령, “추석 감사절에 같이 저녁 먹을까”라는 메일이 왔다면 기계가 이메일 내용을 분석해 “그럽시다” “그날은 바빠요” 등의 답변안을 제시해준다.

구글의 새 음성인식 시스템은 한번 본 데이터를 기억하는 방법으로 정확도가 20% 이상 향상됐다. 한번 들은 단어는 예전에 저장해 둔 문장을 통해 해석하도록 해 문맥 인식이 가능해졌기 때문이다. 번역과 통역 시스템도 머신러닝으로 기존 23%에 달하던 오류율을 8% 수준까지 낮췄다.

◆ 에릭 슈미트, “내가 개발자라면 머신러닝을 배우겠다”

구글의 지주회사인 알파벳의 회장인 에릭 슈미트는 이날 아태 지역 간담회에 화상으로 접속해 머신러닝에 대한 자신의 생각을 전하고 기자들의 질문에 답했다.

슈미트 회장은 “현재 구글에서는 1000명 이상, 100개 팀이 머신러닝에 관한 연구개발을 하고 있다”면서 “구글은 이제 머신러닝 회사로 탈바꿈했다고 해도 과언이 아니다”고 강조했다.

알파벳 산하에는 딥마인드라는 머신러닝 전문회사도 있다. 구글이 2014년 이 회사를 인수하고 난 후 구글의 머신러닝 수준이 크게 올라갔다.

슈미트 회장은 “나도 프로그래머 출신이지만, 머신러닝은 일반적인 프로그래밍과 달라 처음부터 다시 배워야 한다”면서 “누구나 그런 것처럼 프로그래머들도 변화를 싫어한다는 것을 잘 알지만, 이제 머신러닝 방법론을 배워야 할 때까 왔다”고 말했다.

슈미트 회장은 “2050년이 되면 기자들이 연설자의 연설을 받아 치는 일도 없어지고 엑스레이 영상도 의사보다 컴퓨터가 더 정확하게 판독하게 될 것”이라면서 “반복적인 업무는 대부분 기계가 하게 될 것”이라고 덧붙였다.

◆ 특허보다 빅데이터가 더 중요하다

구글은 9일(현지시각) 머신러닝 시스템 ‘텐서플로우(TensorFlow)’의 소스코드를 공개했다. 머신러닝에서 가장 중요한 모델 중 하나가 인간의 두뇌를 모방한 신경망 시스템인데, 이를 외부 개발자에게 개방한 것이다. 텐서플로우에는 소스코드와 도구 모음, 활용법, 예시 등이 포함돼 있다.

에릭 슈미트 회장은 “머신러닝 시스템도 표준이 필요하다”면서 “구글이 머신러닝 시스템을 ‘오픈 소스’로 만들어 더 많은 사람이 참여하게 해 표준을 주도하겠다”고 밝혔다.

그렉 코라도 구글 선임 연구원은 “머신러닝은 일종의 수학 모델로 특허로 보호받기 쉽지 않다”면서 “머신러닝에서 가장 중요한 것은 ‘빅데이터’”라고 말했다.

그는 “머신러닝이 로켓이라면, 데이터는 로켓을 쏘아올리는 연료와도 같다”면서 “가령 기계는 수많은 인터넷 자료를 읽어보고 나서야 털이 많고 눈알이 부리부리한 동물이 고양이라는 것을 배우게 된다”고 말했다.

☞ 머신러닝(machine learning)

기계가 스스로 데이터를 분류하고 이를 통해 미래를 예측할 수 있도록 한 기술과 방법론. 기계가 학습을 통해 이미지를 익히면 사진에 나온 얼굴만 보고도 그 인물의 이름을 알아맞힐 수 있다. 영화 ‘마이너리티 리포트’에서 범죄를 예측해 사전 차단하는 ‘프리-크라임(Pre-crime)’ 시스템도 데이터를 분석해 미래를 예측하는 머신러닝 기술을 이용한 것이다. 기계 학습을 위한 알고리즘에는 ‘의사결정나무’ ‘베이지안망’ ‘서포트백터머신(SVM)’ ‘인공 신경망’ 등이 있다.

0 Comments

No comments!

There are no comments yet, but you can be first to comment this article.

Leave reply

Your email address will not be published. Required fields are marked *