Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту.
В 2021 году The Guardian приняла участие в Journalism AI Collab Challenges, проекте, объединяющем глобальные редакции, чтобы понять, как искусственный интеллект может улучшить журналистику.
Анна Виссенс, ведущий научный сотрудник, и Мишель Шаммель, старший специалист по обработке данных в Guardian News & Media присоединились к онлайн-конференции WAN-IFRA Newsroom Summit, чтобы рассказать об уроках, извлеченных из этого проекта.
Когда ставятся кавычки
В своей работе они рассматривают текст как набор модулей, которые существуют независимо, но могут быть перепрофилированы или даже заменены другими фрагментами. Исходя из этого определения, слова, заключенные в кавычки, строго квалифицируются как модули.
Виссерс убеждена, что использование модульного подхода, позволяющего отследить меняющиеся мнения по одному и тому же вопросу с течением времени, может здорово помочь при проверке фактов и подготовке расследований.
Команда Виссенс и Шаммеля определила понятие цитаты следующим образом: «Цитата – это повторение предложения, фразы или отрывка из речи или текста, которые кто-то сказал или написал. В устной речи это репрезентация высказывания, которая вводится с помощью маркера-глагола. Например: Джон сказал: «Сегодня я видел Мэри». В письменном тексте цитаты обозначаются кавычками».
При этом они решили не помечать текст без кавычек как цитату и разработали дизайнерское решение четкого разделения перефразирования и цитаты, сосредоточив свои усилия на идентификации текста только в кавычках.
Однако в то же время Виссенс и Шаммель хотели научить свою модель различать кавычки и случайные слова в кавычках. «Наша цель с точки зрения машинного обучения состояла в том, чтобы точно определять реальные цитаты и позже иметь возможность вернуться к контексту, окружающего эти цитаты», – сказала Виссенс.
Они создали четкое и краткое руководство для анализа и переработки данных, чтобы свести к минимуму ошибки и неопределенность в обучающем наборе данных. «Мы начали с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружили около 15 различных конструкций, – отметила Виссенс. – Основной проблемой при создании обучающего набора данных стало наличие различных журналистских стилей».
Для обработки данных
Вместе с коллегами из информационного агентства France-Presse (AFP) команда переработала почти 1000 новостных статей, фокусируясь на трех объектах: содержании (цитата в кавычках), источнике (люди, организации и т. д.) и реплике (обычно глагольная фраза, указывающая на речь). Затем результаты были использованы для обучения модели распознавания этих объектов.
Команда использовала два инструмента, созданных технологической компанией Explosion:
Spacy: библиотека с открытым исходным кодом для расширенной обработки естественного языка (NLP) с использованием глубоких нейронных сетей;
Prodigy: инструмент анализа и переработки данных, который предоставляет простой в использовании интерфейс для быстрой и эффективной маркировки обучающего набора данных.
«После ручной обработки тысячи статей у нас была готова наша первая базовая модель, – рассказала Виссенс. – Прототип модели не только ускорил нашу работу, но и дал нам представление о том, где модели чего-то не хватает или где она вообще не работает».
Она добавила, что было интересно наблюдать за улучшением модели с течением времени, и, кроме того, еще и полезно: сами члены команды смогли на практике отточить свои навыки. Первая партия полученных данных оказалась зашумленной и непоследовательной, но с каждой итерацией они становились все лучше. Как только команда собрала достаточно данных, она запустила окончательную версию модели.
Допустимая погрешность
Обученной модели удалось правильно идентифицировать все три объекта в подавляющем большинстве случаев:
реплика показала самую высокую точность – 96%;
содержание – 91%;
источник – 82%.
Чтобы оценить модель, команда использовала самый строгий способ измерения производительности распознавания именованных объектов, где каждый предсказанный объект должен был точно соответствовать (от начала до конца) переработанным данным. Даже в тех случаях, когда модель ошибалась, команда часто обнаруживала, что ей удается частично соответствовать объектам, находящимся в базе данных. Чаще всего это происходило с источниками.
Шаммель отметил, что разница между объектами неудивительна: «Преимущество объекта-содержания в том, что он имеет четкий сигнал, исходящий от кавычек. Но при этом есть сложность: нужно отличить кавычки, в которые заключается цитата, от кавычек, в которые заключаются случайные слова. Постепенно наша модель научилась исключать фразы в кавычках, которые не являются настоящими цитатами».
«Что касается объекта-источника и объекта-реплики, то периодически мы фиксируем ложные срабатывания, – продолжил он. – Иногда модель отмечает реплики без связанного с ними содержания, и мы стремимся преодолеть эту проблему на этапе постобработки».
Новые задачи
В дальнейшем команда Виссенс и Шаммеля планирует создать надежную систему ссылок, которая представляет собой процесс идентификации источников, базирующейся на упоминании только местоимений. Они рассмотрели различные подходы к машинному обучению, основанные на существующих библиотеках. Но ни один из них не сработал так, как это было им нужно, поэтому в итоге они приступили к созданию собственной разработки.
В свою очередь, Арно Пишон и Фред Бурже из AFP создали прототип системы поиска цитат под названием QuoteMachine. Подобное приложение могло бы позволить журналистам быстро находить предыдущие цитаты, чтобы сверить их с текущими заявлениями и обогатить свои статьи.
Подытоживая рассказ, Шаммель признал, что еще одной проблемой наверняка станет выявление значимых цитат: «Однако мы уверены, что сочетание машинного обучения, существующих метаданных о статьях и дополнительной информации, извлеченной из источников и контента, поможет нам ее решить и разработать хороший способ автоматической классификации цитат».
Неха Гупта, корреспондент WAN-IFRA
Скриншот: WAN-IFRA
Материал опубликован в июньском номере журнала «Стратегии и практика издательского бизнеса. WAN-IFRA-ГИПП Magazine»
Все материалы свежего номера читайте здесь