Что это?
UN Web TV Transcripts — инструмент в публичной превью-версии, автоматически создающий доступные для поиска текстовые расшифровки из записей заседаний Организации Объединённых Наций, опубликованных на UN Web TV (открывается в новой вкладке).
Для кого это?
Инструмент призван помочь всем, кому нужен быстрый доступ к произнесённым на заседаниях ООН выступлениям, в том числе:
- Дипломатам и сотрудникам делегаций, следящим за работой нескольких органов
- Исследователям и учёным, изучающим дебаты и голосования ООН
- Журналистам, освещающим деятельность Организации Объединённых Наций
- Организациям гражданского общества, отслеживающим политические обсуждения
- Сотрудникам Секретариата ООН, изучающим материалы заседаний
Какие заседания охватываются?
Инструмент охватывает открытые заседания, записанные и опубликованные на UN Web TV, включая:
- Совет Безопасности — открытые заседания и брифинги
- Генеральная Ассамблея — пленарные заседания и главные комитеты
- Совет по правам человека
- Экономический и Социальный Совет
- Другие межправительственные органы, доступные на Web TV
Закрытые или конфиденциальные заседания не записываются на Web TV и поэтому не охватываются.
Как это работает
1
Сбор расписания заседаний
Система следит за UN Web TV в поиске вновь опубликованных записей. Метаданные заседаний — заголовок, дата, орган ООН и ссылки на документы — извлекаются с сайта Web TV и сохраняются.
2
Транскрибирование аудио
Мы транскрибируем непосредственно существующие аудиоканалы ООН — оригинальное «зальное» сведение и каждый официальный канал устного перевода. Машинный перевод не применяется. Каждый канал транскрибируется моделью распознавания речи, подобранной для соответствующего языка.
3
Идентификация выступающих
После транскрибирования вторая модель ИИ анализирует текст и аудио, чтобы по возможности присвоить выступающим имена и принадлежность. Она использует контекстные подсказки — председатель представляет делегатов, упоминания названий стран, диаризация говорящих — а также официальный список участников, когда он доступен.
4
Анализ тем
Расшифровка автоматически анализируется для определения основных политических тем, обсуждавшихся на заседании, с использованием категорий, релевантных работе ООН (например, гуманитарные вопросы, международный мир и безопасность, права человека).
5
Сопоставление с официальными документами
При наличии официальных стенографических или кратких отчётов (документы PV/SR) система получает их и добавляет временные метки для синхронизации текста с видео. Помимо временных меток, обработка ИИ для этих документов не используется.
Точность и ограничения
Эти расшифровки создаются автоматическим распознаванием речи и не являются официальными документами ООН.
Они представляют собой более быстрый, неофициальный источник, полезный для мониторинга и исследований, но на них не следует ссылаться как на авторитетные. Официальные документы см. в Системе официальной документации ООН (открывается в новой вкладке) (стенографические отчёты, краткие отчёты и резолюции).
Автоматическое транскрибирование значительно быстрее человеческого, но допускает ошибки, которые человеческий редактор поймал бы. Типичные проблемы:
- Имена собственные — названия стран, имена делегатов, географические названия и условные обозначения документов ООН могут быть неверно распознаны или написаны
- Техническая терминология — правовые или процедурные формулировки, характерные для практики ООН, могут быть транскрибированы неверно
- Речь с акцентом — точность зависит от акцента говорящего и качества микрофона
- Перекрывающаяся речь — когда говорят одновременно несколько человек, приписывание реплик может быть ошибочным
Источники данных
- UN Web TV — Записи и метаданные заседаний, предоставляемые через медиаплатформу Kaltura (общедоступную на webtv.un.org).
- Система официальной документации ООН — Официальные стенографические отчёты (документы PV), получаемые с documents.un.org, когда они доступны.
Статус
Этот инструмент находится в публичной превью-версии. Возможности, охват и точность активно совершенствуются. Будем рады вашим отзывам.