[드림샷 칼럼] 네이버 뉴스 알고리듬과 헨리 신세인 언론

류현정 기자 Hyunjung Ryu

류현정 기자

2014년 12월 5일 국내 최대 포털 네이버가 뉴스 검색 서비스의 알고리듬을 바꿨다. 구글처럼 유사한 내용의 뉴스를 묶음 형태(클러스터링)로 서비스하기로 한 것이다. 기존에는 기사 출고 시간 순서대로 나열 형태로 보여줬다.

역시 각 매체마다 온라인 편집팀에서 난리가 났다. 유사 내용별로 기사를 묶어 서비스하다보니, 기사 트래픽이 크게 줄었다는 것이다. 낚시 기사나 검색어 대응 뉴스로 유입되던 트래픽도 확연히 줄었다.  사정이 이렇다보니, 네이버 미디어 팀에 문의 전화도 빗발치고 있다. 도대체 알고리듬을 어떻게 바꿨느냐는 하소연이 대부분이다.

네이버 측은 ‘뉴스 어뷰징(검색어 대응 뉴스처럼 단지 트래픽 올리기 위한 뉴스)’의 폐단을 줄이기 위해 묶음 형태로 뉴스를 서비스하기 시작했다고 밝혔다. 또 정확한 뉴스 알고리듬은 밝히지 않았지만, 구글이나 다음처럼 10여개의 변수를 사용해 알고리듬을 만들었다고 덧붙였다.

▲ 네이버 뉴스 서비스 형태의 예시. 검색어는 ‘조현아’.

▲ 네이버 뉴스 서비스 형태의 예시. 검색어는 ‘조현아’.

구글이 뉴스 랭킹에 쓰는 변수를 보면, 네이버의 새 뉴스 알고리듬을 충분히 유추할 수 있다. 네이버도 구글 뉴스 랭킹 알고리듬을 참고했기 때문이다. 구체적으로 구글 뉴스는 13가지 변수를 활용해 알고리듬을 만든 것으로 알려지고 있다. 구체적으로 살펴보면 다음과 같다.

<구글 뉴스 알고리듬의 변수>

1. 뉴스 작성 언론사의 기사 생산량
– 언론사의 기사 생산량이 많을수록 뉴스의 질이 높을 것이라고 판단(단순 복제는 제외)

2. 기사의 길이
– 기사가 길수록 뉴스의 질이 높을 것으로 판단함

3. 보도의 중요성
– 기사의 텍스트 양과는 반대로 특정 주제에 대해 언론사들이 보도하는 양을 기준으로 함

4. 속보성( The “Breaking News Score”)
– 언론사가 중요한 사건이 발생했을 때 얼마나 빠르게 보도하고 있는지를 측정

5. 뉴스 검색 이용 패턴(Usage Patterns)
– 검색 이용자들이 그동안 뉴스 작성 언론사를 얼마나 클릭해 왔는지를 기준으로 평가함

6. 언론사에 대한 여론조사(survey)
– 언론사에 대해 수용자들이 어떻게 판단하는지를 조사함(구체적 방법과 시기는 미제공)

7. 수용자(audience) 수 및 트래픽
– 신문 부수 조사와 닐슨의 인터넷 트래픽 조사 결과 병행

8. 뉴스 작성 언론사의 뉴스룸 크기
– 뉴스룸 종사자가 많을수록 신뢰도가 높다고 평가

9. 뉴스 작성 언론사의 지국(bureaus) 수
– 국내, 국외 사무실이 많을수록 신뢰도가 높다고 평가

10. 실명 인용 보도의 수
– 기사 내 실명을 인용해 보도하는 경우가 많을수록 독창적 기사로 평가함

11. 뉴스 작성 언론사의 보도 범위
– 얼마나 많은 주제(topic)들을 다루고 있는가를 평가함

12. 보도 기사의 전 세계 도달률
– 보도된 기사가 다른 나라들에서 얼마나 많이 보고, 리트윗되는지 등을 평가함

13. 글쓰기 스타일
– 구글의 언어 모델을 통해 철자법 준수 여부, 문법과 고급 어휘 수준 등을 평가함

구글의 뉴스 알고리듬을 보면, 규모가 있는 언론사일수록 노출될 가능성이 커 보인다. 네이버 측도 “이번 네이버 뉴스 서비스의 알고리듬 개편으로 몇 안 되는 기자를 데리고 다른 곳에 나온 뉴스를 ‘카피&페이스트(Copy&Paste)’를 하며 연명하는 매체는 직격탄을 맞을 수밖에 없을 것”이라고 말했다. 미디어 전문매체인 미디어오늘은 5일 ‘검색 어뷰징 잡는다더니, 왜 조중동만 뜨나’는 비판 조의 기사를 실었다.

온라인으로 책만 팔던 아마존 초창기 시절, 제프 베조스 창업자는 편집팀과 개별맞춤화 팀 2개를 동시에 운영하면서 결과만 지켜봤다. 두 팀의 접근법 차이는 확연했다. 편집팀은 문학적 분위기를 고양하고 고객들이 찾기 어려운 책을 인간의 힘으로 추천해줬다. 제품마다 멋진 글쓰기를 이용하고 권장 제품에 대해 직관적인 결정을 내리며 제품을 하나하나 다루었다. 개별맞춤화 팀(P13N)은 분석론과 알고리듬을 바탕으로 추천목록을 생성했다. 말장난을 다 빼버리고 차갑고 확실한 데이터를 이용해 온라인 선반을 채웠다. 결과는 개별맞춤화 팀의 승리로 끝났다. 대부분의 편집자와 작가는 다른 부서에 전출되거나 정리해고됐다.

산업혁명 시절, 존 헨리(John Henry)에 대한 전설이 있다. 힘이 장사였던 헨리는 증기 기계와 땅 파기 시합을 벌인다. 온 힘을 다한 헨리는 시합에서는 기계를 이기지만, 시합 종료 후 즉시 숨을 거뒀다. 아마존 개별맞춤화 팀은 사무실 벽에 ‘사람들은 존 헨리가 결국에는 죽었다는 사실을 잊어버린다’라는 표어를 붙어놓았고 결국 인간의 손으로 일을 처리한 편집팀을 아마존에서 몰아냈다.

The Legend of John Henry

The Legend of John Henry

2006년 네이버가 아웃링크로 뉴스를 서비스했을 때는 기사 하단에 별로 관련도 없는 자극적인 뉴스 링크를 대여섯개씩 다는 것이 유행했다. 하단 링크에서 트래픽을 끌어오기 위한 것이었다.  2008년 네이버가 뉴스캐스트를 도입했을 때 각 신문사는 편집 인력을 확충했다. 기사에 제목을 잘 달아야 트래픽이 많이 들어왔기 때문이다.  당시 ‘ 충격’ ‘ 경악’ 과 같은 뉴스 제목이 유행했다.  2013년 네이버가 뉴스스탠드를 도입하자 각 편집국에는 실시간 검색어를 넣은 뉴스를 만들어내는 검색어 대응팀이 생겼다.

오랫동안 온라인 편집국에서 근무한 한 신문사 국장은 네이버 뉴스 정책에 따라 매체의 생명이 왔다갔다하는 것은 문제가 아니냐고 지적했다. 사실 네이버 검색 알고리듬이 바뀔 때마다 어뷰징을 일삼아왔으니,  언론사도 별로 할 말은 없다. 오늘날 미디어는 기계(네이버)와의 싸움에서 결국 죽은 헨리 같은 운명이다.

네이버가 국내 뉴스 유통 물량을 장악하고 기술력까지 보유한 한 상황에서 ‘ 네이버 알고리듬 변경 → 편집국 혼란 →  편집국 적응 및 어뷰징 → 네이버 알고리듬 변경’이라는 양상은 바뀌지 않을 것이다. 뉴스 유통의 쏠림 현상을 없애든지, 언론사가 트래픽에 의존하지 않는 비즈니스 모델을 찾아내야 악순환의 고리를 끊을 수 있을 것이다.

/류현정 기자 dreamshot@chosunbiz.com

0 Comments

No comments!

There are no comments yet, but you can be first to comment this article.

Leave reply

Your email address will not be published. Required fields are marked *