Сайт работает в тестовом режиме. Приносим извинения за возможные неудобства
Назад

Доклад WAN-IFRA «News Automation»: бархатная роботизация

Доклад WAN-IFRA «News Automation»: бархатная роботизация

В марте WAN-IFRA опубликовала доклад «News Automation». В нем, в числе прочего, были приведены пять примеров, как в разных странах разрабатывают и внедряют механизмы автоматического генерирования новостного контента. В фокусе: Швеция, Великобритания, США, Финляндия и Китай.

Нью-йоркское новостное агентство Associated Press (AP) и компания-разработчик ПО Automated Insights из города Дарем (штат Северная Каролина) вместе придумали систему автоматического создания отчетов о прибыли для клиентов AP. Это простой механизм, который облегчает кропотливый труд бухгалтеров и позволяет не увязнуть в работе – отчеты надо сдавать четыре раза за год, и на подготовку уходит несколько недель. Если раньше за каждый отчетный период выходило около 300 отчетов, то теперь, согласно последним выкладкам, их уже 4400. Взяв за образец этот положительный опыт, Франческо Маркони в 2017 году, еще будучи сотрудником AP, написал руководство по автоматизации для тех, кто хочет пользоваться последними достижениями разработчиков в этой области.

Однако различные масштабные опросы показывают, что прогресс в этой области пока идет медленно, и хотя другие агентства тоже пробуют внедрять автоматизацию, пример AP – единичный случай, таких историй успеха немного. Что именно мешает компаниям действовать решительнее? Попробуем разобраться, внимательно изучив позитивный опыт.

Швеция: MittMedia и United Robots

United Robots, шведский сервис-провайдер, которым частично владеет MittMedia (медиакомпания, издающая около 30 газет по всей стране), разработал собственный механизм автоматического генерирования новостей по имени Розалинда (в честь попугая знаменитой Пеппи Длинныйчулок) и уже несколько лет создает новостные материалы о большинстве командных видов спорта в Швеции.

Фактическую информацию и конкретное содержание для сводок MittMedia и United Robots предоставляет тесно связанная с ними компания Everysport Media Group – ее сотрудники после каждого матча звонят игрокам команд и судьям по телефону, чтобы собрать данные по шведским соревнованиям всех уровней, или, если это возможно, ищут информацию в интернете. Собирать собственную базу данных вручную – тяжелая и кропотливая работа, но у большинства спортивных организаций низших дивизионов нет общей справочной системы, так что это единственно возможное решение.

«Каждую неделю у нас играет 480 команд в 59 лигах – и это только футбол. Мы рассказываем о них всех и публикуем 3000 автоматизированных текстов в месяц», – говорит Робин Говик, директор по цифровому развитию MittMedia.

Недавно MittMedia и United Robots запустили чат-бота – он собирает высказывания игроков, которые можно использовать как цитаты. Обе компании постоянно сканируют базы открытых данных в поисках новых возможностей. В начале 2018 года они стали использовать механизм, пишущий заметки об обанкротившихся предприятиях, а в 2017 году начали публиковать автоматизированные новости о выгодных сделках с недвижимостью – этот сервис пользуется успехом и обгоняет многие другие продукты в их портфолио по числу платных подписчиков.

«Потребности читателей должны быть определяющим фактором, – подчеркивает Робин Говик. – Выбирать информацию, по которой легко собрать базу данных, значить браться за дело не с того конца… Мы видим, что есть значительный спрос на темы спорта, погоды, дорожного движения. А теперь еще и на тему покупки недвижимости».

По словам Сёрена Карлссона, генерального директора United Robots, отсутствие структурированной базы данных создает множество трудностей. Разные лены и коммуны (мелкие административные единицы в Швеции) работают с разными IT-системами, поэтому так трудно подобрать единое решение для всей страны.

В MittMedia есть менеджер по информационной стратегии и собственная платформа управления данными Soldr – цифровая экосистема для разработки новых продуктов. Soldr собирает, компилирует и соединяет между собой три вида данных – информацию о пользователях, событиях и контенте.

8 советов от United Robots

1. Руководство должно обеспечивать поддержку

Издатели должны верить в проект и на своем примере показывать редакторской команде, как он важен. В тех шведских редакциях, где автоматизация прошла наиболее успешно, менеджеры были твердо уверены, что она необходима, и убеждали в этом сотрудников. Это относится ко всем переменам, происходящим в какой-либо организации.

«Мне доводилось наблюдать и обратную ситуацию, когда руководство отстранялось от процесса, и несчастному редактору спортивного или новостного отдела приходилось брать всю ответственность на себя. Проект не удержится на плаву, если редакторы действуют в одиночку», – говорит Сёрен Карлссон.

2. Привлечение специалистов по рекламе и маркетингу

Введение автоматизации – это превосходная возможность создавать новые продукты и предложения совместно с другими отделами компании. Здесь нужно задать себе, например, такие вопросы: Можем ли мы сделать новый вертикальный портал? Как насчет специального предложения только для местных жителей или новой категории контента, которая привлечет определенную группу рекламодателей? Нужен ли контент, ради которого обычные посетители будут оформлять платную подписку, – как в случае с автоматизированными текстами MittMedia о недвижимости?

3. Не уступать традиционной журналистике

Новости местного значения, своевременная публикация и большое количество текстов – даже если статьи пишут журналисты, все это считается большим преимуществом. Иными словами, автоматизированный контент должен быть актуален.

4. Автоматизация помогает выбрать инфоповод

Анализ данных – важная часть автоматизации, и алгоритмы справляются с поиском скрытых взаимосвязей, статистических выбросов и т. п. намного лучше, чем люди. Пусть система уведомляет журналистов и редакторов, как только произошло что-нибудь интересное – например, продан самый дорогой дом на рынке недвижимости или кто-нибудь сделал хет-трик в шестом дивизионе.

5. Будьте готовы публиковать тексты без правок

У вас должна быть возможность, если вы этого захотите, сделать текст более креативным и живым. Но чтобы по максимуму использовать потенциал статьи, уже написанной достаточно хорошо, ее можно и нужно публиковать сразу.

6. Увеличивайте объемы и используйте преимущество в скорости

Один из главных плюсов автоматизации – возможность за короткое время генерировать огромное количество текста. Подумайте, как ваша система дистрибуции и платформы справятся с большими объемами автоматизированных материалов, в том случае, например, если это все доступные объявления о продаже недвижимости или результаты футбольных матчей. Решением могут стать специальные сайты, персонализация, приложение для местных жителей или пуш-уведомления.

7. Пересмотрите кадровую политику

Необязательно проводить сокращение, однако стоит переосмыслить расписание работы и задачи. Может быть, не все сотрудники должны присутствовать в офисе по утрам, если тексты о матчах генерируются автоматически? Нужны ли в штате столько фрилансеров и не следует ли пересмотреть круг задач, которые они выполняют? Что можно публиковать наряду с рутинными репортажами, чтобы повысить качество издания?

8. Задумайтесь о критериях качества новостей

Качественные новости в ежедневном печатном издании со своей сложившейся аудиторией – совсем не то же самое, что качественные новости, круглосуточно появляющиеся в цифровом потоке, ориентированном на местных жителей, в виде пуш-уведомлений. В предыдущие столетия структура новостной заметки и процесс ее создания почти не менялись, поэтому критерии качества и способ подачи оставались практически одинаковыми. Но когда условия, в которых пишутся и публикуются тексты, меняются, эти критерии нужно опять испытать на прочность. Вместо фокуса подачи, который заинтересует всех сразу, одна и та же заметка может быть подана с нескольких разных углов – в зависимости от того, кто ее читает.

Великобритания: RADAR

RADAR (Reporters and Data and Robots) – агентство местных новостей, созданное в результате сотрудничества Urbs Media и британского информационного агентства Press Association. Компания собирает данные и каждый день производит очередную порцию новостей для издателей по всей стране, при этом авторами текстов выступают как люди, так и алгоритмы. Развитие проекта финансирует организация Digital News Initiative, принадлежащая Google.

Генератор текстов работает на базе программного инструмента, разработанного компанией Arria, а материалы для него берутся из открытых источников, таких как Лондонская база данных (London Datastore). Журналисты Urbs Media пишут шаблоны, и система подбирает релевантные данные в зависимости от того, в каком городе работает заказчик, – это значит, что один шаблон можно использовать для сотен разных заметок.

Эта программа доступна на рынке в готовом виде, и благодаря ей RADAR начал в пробном режиме производить контент для группы из сорока газет, но вскоре развернул деятельность на территории всей страны. В начале 2019 года была введена система подписки, и теперь это агентство местных новостей работает в основном с региональными изданиями крупного и среднего масштаба.

Кроме того, RADAR ввел несколько технических усовершенствований. Первое – способ хранения копий исходных данных, который позволяет видеть источник информации в новостной статье. Сначала этим занимались сторонние компании, но потом была разработана собственная система хранения и распространения открытых данных. Функционал системы также позволяет запустить процесс совмещения данных с шаблоном.

Второе – система дистрибуции, подбирающая нужные версии статьи с учетом конечного пользователя (генератор производит несколько вариантов текста) и самых мелких географических точек. Основная единица в Великобритании – местная администрация, территория муниципалитета. Контент распределяется по 391 каналу, которые охватывают точки по всей стране, а клиенты могут загружать его со специального портала и распределять по собственным системам через API. Пользователь выбирает нужные области страны и получает доступ ко всем соответствующим новостям. Гари Роджерс, сооснователь Urbs Media и главный редактор RADAR AI, объясняет: «Наш сервис освобождает конечного клиента – районную газету – от ненужной работы и в то же время снабжает ее качественными и актуальными новостями. Таким образом, газета получает всестороннее освещение событий, а корреспонденты – свободное время для работы над собственными статьями».

Следующая цель – выпускать в день по несколько новостных сюжетов и для каждого делать по 200-400 локальных версий. «Подсчитав количество доступных, интересных и привязанных к конкретному городу материалов в базах данных, по большей части открытых, мы поняли, что сможем публиковать где-то до пяти сюжетов в день», – говорит Роджерс.

На начальном этапе RADAR автоматизировал отдельные группы данных из Лондонской информационной базы – теперь, чтобы охватить всю страну, поиск данных ведется в источниках общенационального масштаба. Самый крупный из них – Национальная служба здравоохранения (NHS). Представитель NHS утверждает, что они выкладывают в открытый доступ огромные объемы данных обо всем, от индивидуальных консультаций в больницах до сведений о сотрудниках.

«Перед нами стояла задача обеспечить наших журналистов набором профессиональных инструментов. Сюда входит архив, где хранится исходная информация из источника, генератор текстов и умная система дистрибуции, доставляющая локальные версии новостей подходящему издателю», – резюмирует Гари Роджерс.

США: The Washington Post

К Олимпиаде 2016 года в Рио The Washington Post разработала собственный механизм автоматизации новостей – Heliograf. Система рассказывала читателям о последних новостях в форме коротких автоматизированных заметок длиной в несколько предложений. Их можно было прочесть в лайв-блоге газеты, в Twitter (@WPOlympicsbot) и пользуясь устройством, на котором установлен голосовой помощник «Алекса», или ботом для приложения Messenger.

Впоследствии сервис стали применять и в других областях, где нужно обрабатывать массивы данных: результаты выборов, статистика преступлений, недвижимость и финансовые отчеты. Результаты пока что скромные: за первый год с помощью Heliograf было опубликовано около 850 статей. Шайлеш Пракаш, директор по информационным технологиям и развитию продуктов, отмечает, что эффективность – не единственная слабая сторона механизма: «У меня нет цели поставить его на замену журналистам. Технологии еще не продвинулись настолько далеко, чтобы создать хорошую авторскую статью или глубоко проанализировать события».

Пракаш видит в этой разработке потенциал для изменения рабочего процесса в редакции: механизм расширяет диапазон событий, которые может освещать газета, и дает журналистам возможность сосредоточиться на более серьезных аналитических статьях и значимых сюжетах, в то время как система обрабатывает поток ежедневных новостей.

Автоматизация стала новой составной частью бизнес-модели The Washington Post. В октябре 2017 года число уникальных посетителей в месяц приближалось к 100 миллионам только в США – другими словами, почти треть населения страны пользовалась сайтом, чтобы узнать последние новости и получить информацию. С учетом иностранных посетителей цифра увеличилась до 150 миллионов в месяц. Большой поток разнообразного контента улучшает посещаемость и в перспективе – повышает прибыли с рекламы и подписок.

Недавно в редакции газеты было принято решение выкладывать результаты каждого футбольного матча старшеклассников в округе Колумбия. Заметки будут состоять из количества очков, индивидуальных показателей игроков и счета по четвертям, а раз в неделю газета будет размещать собственный региональный рейтинг двадцати лучших команд.

«В сегодняшнем мире контент правит всем – поэтому одинаково важны как конечный продукт, так и технические решения. Рецепт успеха в том, чтобы сочетать журналистику с технологиями», – наставляет Шайлеш Пракаш.

Финляндия: Valtteri

В апреле 2017 года компания Immersive Automation запустила трехъязычного бота, который генерирует новости о муниципальных выборах в Финляндии на финском, шведском и английском. В основе механизма Valtteri – традиционные журналистские принципы и открытые базы данных финского министерства юстиции. Особенность в том, что бот самостоятельно решает, о чем и как писать, опираясь исключительно на данные, без заданного структурного шаблона.

К тому же пользователи могут настраивать его по своему желанию. Преимущества для читателей: возможность искать и находить новости по географическим параметрам, партии или интересующего кандидата; числовые данные в доступном широкой публике формате; прозрачный механизм работы сервиса.

Valtteri произвел более двух миллионов новостных заметок на трех языках. Было проведено практическое испытание, и в результате выяснилось, что опытному журналисту требуется час, чтобы написать одну подобную статью – а на то, чтобы написать два миллиона заметок, у человека уйдет десять тысяч 40-часовых рабочих недель.

Впрочем, такое сопоставление не вполне справедливо: стоимость первой статьи гораздо больше в том случае, если ее пишет машина, а не человек. Первая разработанная система тоже стоит гораздо больше, чем последующая, в которой могут быть снова использованы предыдущие программные решения. Как подсчитать точную стоимость времени и усилий разработчиков – все еще открытый вопрос в программировании.

Потенциал автоматизации хорошо продемонстрирован на примере круга задач, с которыми справился бот Valtteri. Во-первых, он преобразует большие объемы данных в удобный для читателя формат. Во-вторых, освобождает время журналистов для более творческой работы. И, в-третьих, адаптируется под специфические интересы и нужды пользователей. В то же время он порождает своего рода независимую экосистему, в которой сосуществуют данные, программы для их обработки, новостные сюжеты, журналисты и читатели – а это в свою очередь делает необходимой дискуссию о таких вещах, как прозрачность и ответственность при работе с информацией, причем далеко не только в пределах редакции. С технической точки зрения Valtteri показал, что автоматизированная журналистика подходит для многопрофильных и мультиязычных систем.

Второе направление работы Valtteri после новостей о выборах – обработка данных о преступности, публикуемых Статистическим управлением Финляндии.

Примерно в это же время финское подразделение скандинавской медиагруппы Sanoma и общественная телерадиовещательная компания Yle проводили испытания перед запуском собственных механизмов автоматизации новостей. Общедоступных подробностей о результатах в Sanoma совсем мало, зато Yle выложили свою программу с открытым исходным кодом под названием Avoin-voitto на GitHub.

Китай: «Синьхуа» и «Кайсин»

Об этом мало известно за пределами Китая, но многие крупные медиаорганизации страны уже давно заняты автоматизацией: новости для инвестиционной компании Tencent пишет механизм Dreamwriter, для коммерческой платформы Alibaba – Writing Master. Автоматизированные новости публикуют мобильное приложение Toutiao и информационное агентство «Синьхуа». В основном системы с заданными алгоритмами используют для освещения событий в сфере финансов и спорта и для данных о погоде.

Государственная медиакомпания «Синьхуа» ежедневно собирает данные с сайтов разной тематики – например, официальная статистика или прогноз погоды – а также закупает данные у таких поставщиков, как Международный олимпийский комитет.

Джонсян Дай, докторант Баптистского университета Гонконга, специализирующийся на автоматизации новостей в Китае, объясняет, как работает система, созданная в «Синьхуа»: «Сначала журналист делает шаблон, который затем переводится на язык алгоритма программистом. Когда новость готова, механизм не публикует его сразу, а дожидается, пока текст проверит журналист».

В другом китайском медиа, «Кайсин», решили воспользоваться помощью сторонних разработчиков. Финансовые данные для «Кайсин» поставляет Caixin Insight, которая в свою очередь получает их прямо от фондовых рынков. В центре внимания – акции, но компания занимается и спортивными новостями, а кроме этого планирует собирать информацию о рынке облигаций и других финансовых сферах.

Джиапень Ван, исполнительный директор «Кайсин», отмечает: «Наше приложение для автоматизации создано на базе специально предназначенных для работы с китайским языком моделей и алгоритмов HanLP, которые позволяют нам увеличивать собственный корпус текстов и дополнять словари».

Доклад «News Automation» доступен членам WAN-IFRA бесплатно, остальные могут его купить

Иллюстрация: The Washington Post

Материал опубликован в июльском номере журнала «Стратегии и практика издательского бизнеса. WAN-IFRA-ГИПП Magazine»

Все материалы свежего номера читайте здесь

Элемент 89760 не найден.

Читайте также

все новости