Искусственный интеллект (ИИ) уже перестраивает мир заметным образом. Данные управляют нашей глобальной цифровой экосистемой, а технологии ИИ выявляют закономерности в данных. Смартфоны, умные дома и умные города влияют на то, как мы живем и взаимодействуем, а системы искусственного интеллекта все чаще участвуют в принятии решений о наборе персонала, медицинских диагнозах и судебных вердиктах. Является ли этот сценарий утопическим или антиутопическим, зависит от вашей точки зрения.

Потенциальные риски ИИ перечисляются неоднократно. Роботы-убийцы и массовая безработица являются общими проблемами, в то время как некоторые люди даже боятся вымирания человека . Более оптимистичные прогнозы утверждают, что ИИ добавит 15 триллионов долларов США в мировую экономику к 2030 году и в конечном итоге приведет нас к некой социальной нирване .

Мы, безусловно, должны учитывать то воздействие, которое такие технологии оказывают на наши общества. Одна из важных проблем заключается в том, что системы ИИ усиливают существующие социальные предубеждения – вплоть до разрушительного эффекта. Несколько печально известных примеров этого явления получили широкое распространение: современные автоматизированные системы машинного перевода , которые производят сексистские выходы, и системы распознавания изображений, которые классифицируют черных людей как горилл .

Эти проблемы возникают потому, что такие системы используют математические модели (например, нейронные сети) для выявления закономерностей в больших наборах обучающих данных. Если эти данные сильно искажены различными способами, то присущие им предубеждения неизбежно будут изучены и воспроизведены обученными системами. Необъективные автономные технологии проблематичны, поскольку они потенциально могут маргинализировать такие группы, как женщины, этнические меньшинства или пожилые люди, усугубляя тем самым существующие социальные дисбалансы.

Например, если системы искусственного интеллекта обучены работе с данными об арестах в полиции, то любые сознательные или бессознательные предубеждения, проявляющиеся в существующих моделях арестов, будут воспроизводиться системой искусственного интеллекта “прогностическая полиция”, обученной работе с этими данными. Признавая серьезные последствия этого, различные авторитетные организации недавно рекомендовали, чтобы все системы искусственного интеллекта были обучены на непредвзятых данных. Этические принципы, опубликованные ранее в 2019 году Европейской комиссией, предложили следующую рекомендацию:

Когда данные собираются, они могут содержать социально сконструированные предубеждения, неточности, ошибки и заблуждения. Эта проблема должна решаться до начала обучения с использованием любого конкретного набора данных.

Работа с необъективными данными

Все это звучит достаточно разумно. Но, к сожалению, иногда просто невозможно обеспечить, чтобы определенные наборы данных были непредвзятыми до начала обучения. Конкретный пример должен прояснить это.

Все современные системы машинного перевода (такие как Google Translate) обучаются на парах предложений. Англо-французская система использует данные, которые связывают английские предложения (”she is tall“) с эквивалентными французскими предложениями (”elle est grande"). В заданном наборе обучающих данных может быть 500m таких пар, и поэтому в общей сложности один миллиард отдельных предложений. Все гендерные предубеждения должны быть удалены из набора данных такого рода, если мы хотим, чтобы результирующая система не давала сексистских результатов, таких как следующие:

Ввод: женщины начали встречу. Они работали эффективно.
Output: Les femmes ont commencé la réunion. Ils ont travaillé efficacement.


Французский перевод был сгенерирован с помощью Google Translate 11 октября 2019 года, и это неверно: “ Ils ” является мужским местоимением множественного числа во французском языке, и он появляется здесь, несмотря на контекст, ясно указывающий, что речь идет о женщинах. Это классический пример мужского значения по умолчанию, предпочитаемого автоматизированной системой из-за искажений в обучающих данных.

В целом, 70% гендерных местоимений в наборах данных перевода являются мужскими, а 30% - женскими. Это объясняется тем, что тексты, используемые для таких целей, как правило, относятся к мужчинам больше, чем к женщинам. Для предотвращения систем перевода, воспроизводящих эти существующие предубеждения, конкретные пары предложений должны быть удалены из данных, чтобы местоимения мужского и женского рода встречались на 50%/50% как на английском, так и на французском языках. Это помешало бы системе приписывать более высокие вероятности местоимениям мужского рода.

Существительные и прилагательные также должны быть сбалансированы на 50%/50%, поскольку они могут указывать на пол в обоих языках (“актер”, “актриса”; “неф”, “Нев”) – и так далее. Но этот радикальный спуск выборки неизбежно приведет к значительному сокращению имеющихся учебных данных, тем самым снижая качество выполняемых переводов.

И даже если результирующее подмножество данных будет полностью сбалансировано по полу, оно все равно будет искажено всеми другими способами (такими как этническая принадлежность или возраст). По правде говоря, было бы трудно полностью устранить все эти предубеждения . Если бы один человек посвятил всего пять секунд чтению каждого из одного миллиарда предложений в данных обучения, потребовалось бы 159 лет, чтобы проверить их все – и это предполагает готовность работать весь день и ночь, без перерывов на обед.

А как же альтернатива?

Поэтому нереалистично требовать, чтобы все обучающие наборы данных были беспристрастными, прежде чем будут построены системы искусственного интеллекта. Такие требования высокого уровня обычно предполагают, что “AI” обозначает однородный кластер математических моделей и алгоритмических подходов.

На самом деле, различные задачи ИИ требуют очень разных типов систем. И преуменьшение в полной мере этого разнообразия маскирует реальные проблемы, создаваемые (скажем) глубоко искаженными учебными данными. Это вызывает сожаление, поскольку это означает, что другие решения проблемы смещения данных игнорируются.

Например, предубеждения в обученной системе машинного перевода могут быть существенно уменьшены, если система адаптируется после того, как она была обучена на большем, неизбежно предвзятом, наборе данных. Это может быть сделано с использованием значительно меньшего, менее искаженного, набора данных. Таким образом, большая часть данных может быть сильно искажена, но система, обученная на ней, не должна быть такой. К сожалению, эти методы редко обсуждаются теми, кто занимается разработкой руководящих принципов и законодательных рамок для исследований ИИ.

Если системы ИИ просто усиливают существующие социальные дисбалансы, то они скорее препятствуют, чем способствуют позитивным социальным изменениям. Если бы технологии искусственного интеллекта, которыми мы все чаще пользуемся ежедневно, были гораздо менее предвзятыми, чем мы, то они могли бы помочь нам распознать и противостоять нашим собственным скрытым предрассудкам.

Безусловно, именно к этому мы и должны стремиться. Таким образом, разработчикам ИИ нужно гораздо более тщательно продумать социальные последствия систем, которые они строят, в то время как те, кто пишет об ИИ, должны более подробно понять, как на самом деле проектируются и строятся системы ИИ. Потому что если мы действительно приближаемся к технологической идиллии или апокалипсису, то первое было бы предпочтительнее.