Оружие математического поражения

09.01.2018 3104

Другие статьи автора

Пирамида автоматизации Распространенные ошибки начинающих тестировщиков Как научиться учиться. Часть 2 Как научиться учиться. Часть 1 7 принципов тестирования. Часть 1 7 принципов тестирования. Часть 2 7 принципов тестирования. Часть 3 Манифест Agile-тестировщика. Часть 1 Манифест Agile-тестировщика. Часть 2 Шерстяная Фуфайка на карте мира

Последние статьи в блоге

Скидка 50% на обучение! PostgreSQL — один за всех? Как работать с нетипичными данными в реляционной системе Миграция с Oracle на PostgreSQL: подводные камни и инструменты для перехода Архитектор ПО: новый взгляд на обучение Новый релиз сертификации для системных аналитиков Эффективное взаимодействие с Apache Kafka: выбор метода и особенности PL/SQL и PL/pgSQL: сходства, различия и особенности перехода с первого на второй Что читать и смотреть начинающему Java-разработчику Летняя распродажа курсов! Учитесь со скидкой 50%! Популярные курсы по направлению Java

Мы живем в эпоху ускоряющегося технического прогресса. Высокие технологии и “большие данные” всё больше влияют на нашу повседневную жизнь. Но всегда ли это влияние положительное? Делают ли новые технические возможности наш мир лучше, комфортнее, справедливее, наконец, или же бывает и наоборот? Над такими вопросами заставляет задуматься книга Кэти О’Нил "Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy".

Сама она – математик и специалист в области анализа финансовых рынков. Собственный опыт, наблюдения и исследования привели ее к мысли о том, что в некоторых случаях алгоритмы, основанные на “больших данных” и машинном обучении, усугубляют неравенство и даже угрожают демократии.

Почему и как это происходит?

Всё чаще важные решения, влияющие на жизнь людей, принимают не люди, а машины. Поступит ли абитуриент в колледж, позовут ли на собеседование того или иного кандидата, кого уволить при сокращении штатов, выдавать или не выдавать кредит, во сколько обойдется медицинская страховка - зачастую эти решения принимаются на основе математических моделей.

Однако любая модель по определению представляет собой некое упрощение. Что включить в модель, а что выкинуть как несущественное - зависит от тех, кто эту модель создает. Как говорит Кэти О’Нил, “модели – это мнения, воплощенные в математике”. И не все модели одинаково хороши.

Одна из существенных проблем, на которые указывает О’Нил, – использование замещающих переменных (proxy variables). Нередко нет возможности получить данные о неком желаемом свойстве, и в таком случае используются переменные, значение которых коррелирует с этой неизвестной переменной.

Скажем, работодатели, подыскивая сотрудника, хотят знать, насколько добросовестен, ответственен и порядочен тот или иной кандидат. Действительно затруднительно измерить эти важные человеческие качества… Многие американские компании используют в качестве замещающей переменной кредитный рейтинг – число, характеризующее вероятность возврата долга заемщиком. Хорошая кредитная история становится необходимой, чтобы получить приличную работу. Казалось бы, в этом есть здравый смысл: добросовестный человек, скорее всего, будет вовремя платить по счетам и выполнять свои финансовые обязательства. Однако не так уж всё однозначно. Вполне порядочный человек может запросто попасть в долговую яму и даже обанкротиться. Например, потеряв работу (а это может произойти по не зависящим от человека причинам, особенно в период финансового кризиса), средний американец теряет одновременно и медицинскую страховку. Травма или внезапная болезнь способны разорить человека, и большинство банкротств частных лиц в США связаны именно с медицинскими расходами.

В каком-то смысле такая модель работает как “самоисполняющееся пророчество” – кредитная история испорчена, человеку трудно найти работу, в результате долги растут, и трудоустроиться становится всё сложнее. У вполне добропорядочного гражданина затягивается на шее удавка.

Более того, замещающие переменные используются даже в тех случаях, когда есть гораздо более достоверные данные. Например, в штате Флорида сумма автостраховки зависит от кредитной истории даже в большей степени, чем от истории вождения: водитель без единого нарушения, но с низким кредитным рейтингом заплатит за автостраховку на $1552 больше, чем водитель с отличным кредитным рейтингом и случаем пьяного вождения в “анамнезе”. Более надежный показатель попросту игнорируется. Есть ли в этом справедливость и здравый смысл? Вопрос риторический…

Еще один пример, который приводит О’Нил в своей книге – система оценки учителей, которая широко применяется во многих школах. Учителей оценивали в зависимости от того, насколько улучшились за предыдущий год знания их учеников. Тех, кого оценили недостаточно высоко, попросту увольняли. Прогресс учеников замеряли по результатам тестов в конце учебного года.

На первый взгляд этот подход может показаться осмысленным. Но если задуматься серьезнее, то становится очевидным, что успеваемость учеников зависит далеко не только от профессиональных и личных качеств учителя, и отделить вклад учителя от других факторов – нетривиальная задача. С точки зрения статистики, выборка смехотворна мала: учителей оценивали на основе результатов тестов 25-30 учеников. Это ничтожное число. Чтобы проанализировать и сравнить успешность учителей статистически достоверно, нужно было бы проверить их на тысячах, если не на миллионах случайно отобранных учеников, по словам Кэти О’Нил. Разумеется, сделать это попросту невозможно. Сама по себе выбранная модель более чем сомнительна. Тем не менее на основе оценок, выданных этой системой, увольняли реальных людей, вполне возможно, далеко не плохих учителей.

Еще один побочный эффект – входные данные могут быть фальсифицированы, и у оцениваемых людей есть серьезная мотивация это делать. Собственно, именно это и произошло – были вскрыты факты подделки результатов ежегодных тестов во многих американских школах. Таким образом учителя пытались защитить себя от увольнения или даже заработать премию.

Также О’Нил затрагивает такую тему, как таргетированная реклама. На первый взгляд, довольно безобидная штука. Ну что ужасного в том, что нам предлагают купить именно то, что мы недавно гуглили? Однако наряду со вполне легитимными и приемлемыми примерами использования, существуют и злоупотребления, граничащие с мошенничеством. Например, организаторы рекламных кампаний специально отслеживают бедные и уязвимые группы населения, чтобы подсунуть им краткосрочные кредиты с завышенными процентными ставками (при том что они могли бы на самом деле получить гораздо более выгодный кредит).

Еще более опасным О’Нил представляется использование таргетированных объявлений для политической агитации. Прошли те времена, когда кандидаты в президенты должны были обращаться ко всему американскому народу с единой программой. Современные технологии позволяют доставить каждому гражданину персонализированное послание и пообещать именно то, что, скорее всего, понравится ему или ей. Один месседж – для озабоченных экологией, другой – для обеспокоенных наплывом мигрантов, молодым выпускникам колледжей можно пообещать совсем не то, что пожилым фермерам… А полной картины нет ни у кого. И даже если вы зайдете на официальный сайт кандидата, совершенно не факт, что вы увидите там ровно то же, что увидит ваша соседка. В сущности, неограниченный простор для манипуляций электоратом.

В последней главе О’Нил останавливается на том, какие огромные возможности для воздействия на общественное сознание имеют интернет-гиганты Facebook и Google. Что увидят пользователи в своей ленте или в результатах поиска – в их руках. Что если они захотят в своих интересах повлиять на выборы? О’Нил не обвиняет их ни в чем, по ее словам, никаких доказательств, никаких причин считать, что они уже делали нечто подобное, нет. Но такая возможность, по ее мнению, у них есть. И, пожалуй, трудно с ней не согласиться.

Обзор не претендует на полноту, в книге приведено намного больше реальных кейсов. Советую читать целиком :)

Расскажи друзьям: