Роботы заменят журналистов?
28.05.2010 18:05
Светлана Булашова

ДРУЗЬЯ! НАС ТЕСНЯТ РОБОТЫ!

УВЕРЕНА, ЧТО УЖЕ ОЧЕНЬ СКОРО ЗАМЕТКИ  В ИНТЕРНЕТЕ БУДУТ СОСТАВЛЯТЬ МАШИНЫ.

ЕЩЕ ГОД-ДВА И ИНФОРМАЦИОННАЯ ЖУРНАЛИСТИКА  СОВСЕМ ОТКАЖЕТСЯ ОТ ЖИВЫХ ПЕРЬЕВ.

А КАКОЙ ПРОГНОЗ У МОЛОДЫХ ЖУРНАЛИСТОВ?

 

«Я не верю в роботов-журналистов, но знаю, что часть журналистcкой работы могут выполнять роботы»

Основатель стартапа Narrative Sciencе Стюарт Френкель рассказал Slon.ru о том, как компьютеры могут заменить работников СМИ
Stuart_Frankel_240.jpgВ конце апреля сотрудники американского (Northwestern University) провели интересный эксперимент. Они пригласили нескольких профессиональных спортивных редакторов из чикагских изданий и предложили им оценить по пятибалльной шкале три небольших заметки, посвященных финальному бейсбольному матчу между университетскими командами. В результате голосования одна заметка получила заметно больше баллов, чем другие. Редакторы похвалили ее за информативность, лаконичность, правильную последовательность изложения фактов, умение автора фильтровать второстепенную информацию.

Журналисты были сильно удивлены, когда им сообщили, что лучшая заметка написана не человеком, а сгенерирована специальной программой. Два других текста написали студенты старших курсов факультета спортивной информации Школы журналистики Медилла того же Северо-Западного университета.

Эксперимент был презентацией стартапа Narrative Sciencе, специализирующегося на «machine-generated content» – автоматической генерации контента. Именно его программа Stats Monkey сгенерировала лучшую заметку. Презентацией планов дело не ограничилось: Narrative Sciencе заключила контракт со спортивным порталом Bigtennetwork.com и теперь будет готовить для него часть новостей о бейсбольных и софтбольных матчах.

Эксперименты с машинным контентом в журналистике происходят не в первый раз. Лаборатория интеллектуальной информации Северо-Западного университета – партнер Narrative Sciencе и главный разработчик Stats Monkey – уже известна подобными проектами. Это, например, программа News at Seven, генерирующая новостные видеоролики на основе информации, найденной в интернете. Однако впервые речь идет о практическом использовании роботов в действующем СМИ.


КОНВЕЙЕР КОНТЕНТА

– А если бы в том презентационном эксперименте соперником Stats Monkey были не студенты, а опытные журналисты, результат был бы таким же?

– У нас не было запрограммированного результата. Просто в какой-то момент мы с партнерами по университетской лаборатории поняли, что бессмысленно дальше варить продукт в собственном соку. В проекте активно участвуют сотрудники Школы журналистики Медилла, они совместно с Лабораторией интеллектуальной информации и разрабатывали основной алгоритм программы. Но судили эксперимент журналисты, которые к проекту не имеют никакого отношения. Для нас был важен именно взгляд со стороны. Что касается участников эксперимента, то было решено, что заметки должны написать именно студенты старших курсов, ведь на информации такого уровня в медиа как раз специализируются молодые журналисты или стажеры. 

– То есть пока удел Stats Monkey – сухие, короткие информационные заметки?

– Не обязательно короткие. Но с точки зрения конечного продукта короткая заметка сложнее для программы, чем длинная. В случае с короткой заметкой с заранее ограниченным четким объемом включается дополнительный алгоритм информационной фильтрации, над которым в лаборатории работали больше двух лет. Это одна из самых сложные составляющих проекта. Но в целом вы правы: главный продукт системы – информационные заметки, основанные на статистической информации (на это указывает и название разработки). Это очень важно подчеркнуть, поскольку нам уже приписывают чуть ли не революцию на медиарынке: мол, мы хотим заменить людей на роботов-генераторов текстов. Прочитав такое, любой профессионал посчитает нас авантюристами. Это совсем не так. Я не верю в роботов-журналистов, но я знаю, что определенную часть нынешней журналистской работы могут выполнять роботы. 

– В чем главное предложение Narrative Sciencе для медиарынка? Автоматизация новостных отделов спортивных изданий?

– Сегодня мы продаем и устанавливаем программное обеспечение, специализирующееся на обработке спортивной информации о командных видах спорта. Параллельно мы проводим управленческие консультации по реорганизации новостных отделов спортивных проектов с целью их оптимизации – и, как результат, вообще оптимизации бюджетов редакций. Narrative Sciencе исходит из того, что в медиа, как и в любой другой отрасли, есть целый пласт функциональных задач, которые могут быть автоматизированы, однако этого не происходит из-за сложности разработок, связанных с производством смыслового контента. Огромный объем простого продукта производится вручную, на это тратятся деньги и время, которые могли бы потенциально использоваться куда более рационально.

Исследовательский центр Школы журналистики Медилла проводил анализ работы спортивных редакций, как самостоятельных, так и работающих в структурах общенациональных газет и порталов. На ежедневную обработку простой статистической информации тратится около 30% бюджета спортивных редакций. Сидят люди, получают информацию о результатах матча, обрабатывают ее, создают последовательный текст, отправляют его редактору, он редактирует заметку, публикует ее или отправляет на верстку.

Заметьте, это не сложная аналитика, не подробный репортаж и не авторская колонка. Это свод фактов и цифр, которые облекают в текст. При этом важно, чтобы это была не просто статистика (счет, голы, удары, удаления и т.д), перечисленная в столбик, а рассказ – последовательность предложений с элементами статистики. Иначе вся спортивная журналистика превратилась бы в производство столбиков. И вот этот низовой уровень – я бы даже назвал его конвейерным – производства спортивного контента мы и предлагаем автоматизировать. 

ЗАМЕТКА ЗА 1 МИНУТУ

– Но все-таки какое-то человеческое участие на этом уровне производства контента исключить сложно. Кто-то же должен добывать результаты и статистику, на основе которой потом генерируется текст. Расскажите, как это работает.

– Лаборатория интеллектуальной информации разработала сложный поисковый алгоритм. Он запрограммирован на нахождение ключевых фактов и введение их в определенную структуру. Например, для репортажа с бейсбольного матча  Stats Monkey генерирует рассказ, основанный на количественных данных. Используя счет, алгоритм воссоздает динамику игры, выделяет ключевые моменты, ключевых игроков, ищет соответствующие цитаты и генерирует из этих элементов текст. А также ставит заголовок и фото главного игрока.

Ключевой вопрос – источник исходной информации. Во-первых, для создания алгоритма автоматически переработано более 10 000 статей о спортивных матчах. Пока это касается бейсбола и софтбола, но система позволяет использовать ту же модель и для других командных игр. Система беспрерывно обрабатывает новые новостные потоки по этим видам спорта, отталкивается от этой базы данных для создания текстовых конструкций и предложений, описывающих контекст и бэкграунд турнира.

Дальше в ход идет оперативная информация с матча. Здесь есть два варианта. Идеальный – когда Stats Monkey получает информацию автоматически, это позволяют делать современные судейские системы, внедренные сразу в нескольких лигах. Второй вариант, компромиссный, – журналист через интерфейс Stats Monkey вбивает итоговые цифры в специальное поле, после чего уже генерируется текст. В результате, участие каких-то сотрудников, конечно, необходимо, но оно минимизировано. В среднем на производство короткой заметки, вроде той, что была представлена на эксперименте, журналист тратит около 35 минут. Stats Monkey при идеальном варианте производит текст за 1 минуту. При компромиссном варианте – 4–5 минут. 

-  Если не секрет, сколько может стоить для среднего спортивного сайта установка Stats Monkey? И какие сроки окупаемости проекта вы обещаете, учитывая оптимизацию, сокращения и т.д.

– Никаких цифр, касающихся финансовой стороны вопроса, я пока назвать не могу. Narrative Sciencе – классический стартап, нам всего пять месяцев. Более того, говорить о каких-либо цифрах сейчас было бы некорректно. Для стартапов вроде нашего первый крупный клиент – по сути, полноправный партнер, наравне с разработчиком программного продукта, лицензию которого мы продвигаем. У нас формально рыночный механизм взаимодействия, но при определении стоимости проекта мы использовали серьезные снижающие коэффициенты. 

С БИРЖАМИ ПОДОЖДЕМ      

– Вы ведь не собираетесь останавливаться на спортивных новостях? Какие сегменты медиарынка вас еще могут заинтересовать?

– Ориентация на спортивный контент обусловлена изначальными интересами разработчика. Спортивная статистика – слишком лакомый кусок , понятно, почему начали именно с него. Параллельно с рыночными продажами спортивного функционала Stats Monkey, специалисты лаборатории разрабатывают алгоритмы генерации другого новостного контента. Сейчас ключевых направления четыре: криминальные новости и статистика, новости медицинских разработок, социологическая информация и финансовые, биржевые новости. Этими направлениями занимаются сразу несколько групп. Первые результаты мы планируем получить к осени. Основная модель алгоритма уже есть, осталось дополнить его специфическими фильтрами и накопить специализированную лексическую базу. 

– Slon.ru – деловое издание. Нас больше волнует судьба деловой журналистики…

– Бизнес-журналистика будет частично охвачена нашим финансово-биржевым блоком. В первую очередь речь идет о новостях, о сделках, слияниях и поглощениях, банкротствах, выводе новых продуктов на рынок. Мы планировали предложить рынку финансово-биржевой блок одновременно со спортивным. Но наши партнеры из Школы журналистики Медилла предложили подождать и провести дополнительные исследования. Алгоритм генерации контента здесь будет сложнее, чем у спортивных новостей. Если с биржевыми сводками все понятно, то с новостными заметками о сделках не все так просто. Ведь речь идет о производстве оригинального контента. Всегда можно опубликовать пресс-релиз о сделке или сделать микс из релиза и рассылки аналитического агентства, но для этого не нужен Stats Monkey.

Мы планируем предложить другую схему: новости о сделках не будут автоматизированы полностью, но процесс их производства будет значительно ускорен. Контент будет генерироваться на основе статистики и комментариев, которые репортер оперативно вносит в специальный блок официальных релизов, баз инфографики и информации информагентств. Репортеру не нужно будет тратить время на обработку всей этой информации для создания простой новостной заметки.

Важно, что это будет не очередное копирование новости, а ее переработка, ее дополнение всем возможным контекстом. Это будет самостоятельный, оригинальный, хотя и довольно простой текст. Кстати, на написание новостной бизнес-заметки нужно больше времени, чем на подготовку спортивной новости. Так что здесь тоже есть пространство для оптимизации. Но, конечно, речь не идет о репортерских эксклюзивах, а исключительно об уже появившихся в новостных лентах новостях. 

БОРЬБА ЗА СТАРТАПЫ

– Вы до недавнего времени были топ-менеджером крупной компании. И вот перешли работать в небольшой стартап. Не рискованный шаг в наше кризисное время?

– Я не первый раз совершаю такой кульбит. На самом деле, в этом нет ничего сумасбродного и неожиданного. Я давно знаю команду из Северо-Западного университета. И когда они предложили мне заняться этим проектом, я с радостью согласился. Narrative Sciencе – из тех стартапов, которые нельзя упускать. По сути, сейчас компания держится на четырех партнерах. Это я и моя команда, которая должна вывести проект на рынок. Это разработчики Stats Monkey и владельцы лицензии – Лаборатория интеллектуальной информации Северо-Западного университета. Это рыночный консультант – Школа журналистики Медилла. И первый клиент – Bigtennetwork.com. Классическая для подобных стартапов конфигурация и очень для нашего времени редкая.

Рынок потенциальных стартапов за последние три года сильно сжался. Не секрет, что, как и я, многие менеджеры регулярно занимаются поиском интересных проектов. Знаете, кто-то ищет работу, а кто-то потенциальные стартапы. За хорошие разработки в университетских лабораториях идет серьезная конкуренция: можно проиграть проект, еще его не запустив. Я, например, чуть не упустил Stats Monkey, так как на реализацию проекта претендовал один из венчурных фондов. Пришлось защищать свои позиции перед разработчиками, которым нужно было сделать непростой выбор. И сейчас эта типичная ситуация для рынка. На один потенциальный стартап – 10 претендентов.

– А спрос вы как-то предварительно анализировали?

– На рынке, с которым мы собираемся работать, ситуация неоднозначная. С одной стороны, СМИ сейчас часто не до автоматизации и экспериментов. С другой – сейчас именно то время, когда можно предложить им проект по оптимизации бизнес-процессов. Людей все равно сокращают, и есть возможность провести этот процесс рационально. Единственное, не хотелось бы, чтобы мы произвели впечатление каких-то выскочек, которые безответственно посягают на основы журналистской профессии. Мы делаем стартап совместно с профессиональными журналистами и предлагаем исключительно прикладной механизм. Более того, не исключаю, что у медиакомпаний могут появиться обоснованные вопросы к качеству работы StatsMonkey. Но разве таких же вопросов нет к самим журналистам?
Петр Биргер
 
Добавить комментарий
30.05.2010 19:48
Анонимно
Журналистов, как грязи... Читателей всё меньше и меньше.
Поэтому да здравствуют роботы ! Пусть они информационно обслуживают население.
Нечего метать биссер...
Добавить комментарий