The Guardian: цитаты со смыслом
25.07.2022
Источник: СППИ ГИПП
Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту. В 2021 году The Guardian [ https://www.theguardian.com/international ] приняла участие в Journalism AI Collab Challenges, проекте, объединяющем глобальные редакции, чтобы понять, как искусственный интеллект может улучшить журналистику. Анна Виссенс, ведущий научный сотрудник, и Мишель Шаммель, старший специалист по обработке данных в Guardian News & Media присоединились к онлайн-конференции WAN-IFRA Newsroom Summit, чтобы рассказать об уроках, извлеченных из этого проекта. Когда ставятся кавычки В своей работе они рассматривают текст как набор модулей, которые существуют независимо, но могут быть перепрофилированы или даже заменены другими фрагментами. Исходя из этого определения, слова, заключенные в кавычки, строго квалифицируются как модули. Виссерс убеждена, что использование модульного подхода, позволяющего отследить меняющиеся мнения по одному и тому же вопросу с течением времени, может здорово помочь при проверке фактов и подготовке расследований. Команда Виссенс и Шаммеля определила понятие цитаты следующим образом: «Цитата – это повторение предложения, фразы или отрывка из речи или текста, которые кто-то сказал или написал. В устной речи это репрезентация высказывания, которая вводится с помощью маркера-глагола. Например: Джон сказал: «Сегодня я видел Мэри». В письменном тексте цитаты обозначаются кавычками». При этом они решили не помечать текст без кавычек как цитату и разработали дизайнерское решение четкого разделения перефразирования и цитаты, сосредоточив свои усилия на идентификации текста только в кавычках. Однако в то же время Виссенс и Шаммель хотели научить свою модель различать кавычки и случайные слова в кавычках. «Наша цель с точки зрения машинного обучения состояла в том, чтобы точно определять реальные цитаты и позже иметь возможность вернуться к контексту, окружающего эти цитаты», – сказала Виссенс. Они создали четкое и краткое руководство для анализа и переработки данных, чтобы свести к минимуму ошибки и неопределенность в обучающем наборе данных. «Мы начали с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружили около 15 различных конструкций, – отметила Виссенс. – Основной проблемой при создании обучающего набора данных стало наличие различных журналистских стилей». Для обработки данных Вместе с коллегами из информационного агентства France-Presse (AFP) [ https://www.afp.com/en ] команда переработала почти 1000 новостных статей, фокусируясь на трех объектах: содержании (цитата в кавычках), источнике (люди, организации и т. д.) и реплике (обычно глагольная фраза, указывающая на речь). Затем результаты были использованы для обучения модели распознавания этих объектов. Команда использовала два инструмента, созданных технологической компанией Explosion [ https://explosion.ai ] : - Spacy: библиотека с открытым исходным кодом для расширенной обработки естественного языка (NLP) с использованием глубоких нейронных сетей, - Prodigy: инструмент анализа и переработки данных, который предоставляет простой в использовании интерфейс для быстрой и эффективной маркировки обучающего набора данных. «После ручной обработки тысячи статей у нас была готова наша первая базовая модель, – рассказала Виссенс. – Прототип модели не только ускорил нашу работу, но и дал нам представление о том, где модели чего-то не хватает или где она вообще не работает». Она добавила, что было интересно наблюдать за улучшением модели с течением времени, и, кроме того, еще и полезно: сами члены команды смогли на практике отточить свои навыки. Первая партия полученных данных оказалась зашумленной и непоследовательной, но с каждой итерацией они становились все лучше. Как только команда собрала достаточно данных, она запустила окончательную версию модели. Допустимая погрешность Обученной модели удалось правильно идентифицировать все три объекта в подавляющем большинстве случаев: - реплика показала самую высокую точность – 96%, - содержание – 91%, - источник – 82%. Чтобы оценить модель, команда использовала самый строгий способ измерения производительности распознавания именованных объектов, где каждый предсказанный объект должен был точно соответствовать (от начала до конца) переработанным данным. Даже в тех случаях, когда модель ошибалась, команда часто обнаруживала, что ей удается частично соответствовать объектам, находящимся в базе данных. Чаще всего это происходило с источниками. Шаммель отметил, что разница между объектами неудивительна: «Преимущество объекта-содержания в том, что он имеет четкий сигнал, исходящий от кавычек. Но при этом есть сложность: нужно отличить кавычки, в которые заключается цитата, от кавычек, в которые заключаются случайные слова. Постепенно наша модель научилась исключать фразы в кавычках, которые не являются настоящими цитатами». «Что касается объекта-источника и объекта-реплики, то периодически мы фиксируем ложные срабатывания, – продолжил он. – Иногда модель отмечает реплики без связанного с ними содержания, и мы стремимся преодолеть эту проблему на этапе постобработки». Новые задачи В дальнейшем команда Виссенс и Шаммеля планирует создать надежную систему ссылок, которая представляет собой процесс идентификации источников, базирующейся на упоминании только местоимений. Они рассмотрели различные подходы к машинному обучению, основанные на существующих библиотеках. Но ни один из них не сработал так, как это было им нужно, поэтому в итоге они приступили к созданию собственной разработки. В свою очередь, Арно Пишон и Фред Бурже из AFP создали прототип системы поиска цитат под названием QuoteMachine. Подобное приложение могло бы позволить журналистам быстро находить предыдущие цитаты, чтобы сверить их с текущими заявлениями и обогатить свои статьи. Подытоживая рассказ, Шаммель признал, что еще одной проблемой наверняка станет выявление значимых цитат: «Однако мы уверены, что сочетание машинного обучения, существующих метаданных о статьях и дополнительной информации, извлеченной из источников и контента, поможет нам ее решить и разработать хороший способ автоматической классификации цитат». Неха Гупта, корреспондент WAN-IFRA Скриншот: WAN-IFRA [ https://wan-ifra.org ] Материал опубликован в июньском номере [ https://gipp.ru/news/zhurnal-wan-ifra-gipp/gipp-wan-ifra-06-2022/ ] журнала «Стратегии и практика издательского бизнеса. WAN-IFRA-ГИПП Magazine» Все материалы свежего номера читайте здесь [ https://viewer.joomag.com/mag/0951596001655892127 ]