Все лгут. Поисковики, Big Data и интернет знают о вас все

Контуры революции

В 2009 году Google выпустил приложение Google Trends, появление которого прошло практически незаметно. Изначально им пользовались лишь забавы ради: посмотреть по ключевым запросам в Google, например, что сейчас модно. Но приложение неожиданно даже для самих создателей приобрело намного большее значение, захватив роль, которая вышла далеко за пределы шуток. В мир полился поток информации о том, что люди на разных концах земного шара ищут в поисковике, и эти запросы оказались удивительными, неожиданными и даже порой пугающими.

Так, выяснилось, что победа Барака Обамы на президентских выборах в США в 2008 году не поставила окончательную точку в расовом вопросе для американцев. И Google Trends наглядно продемонстрировал это посредством статистики запросов.

Данные, собранные Google Trends, позволяют составить портрет эпохи и человека в ней, понять, что беспокоит людей в разных городах и странах.

Интуиция нас обманывает

Сегодня во многих крупных компаниях появились специалисты по сбору и анализу данных. Без этих специалистов уже нельзя обойтись, если бизнес намерен идти в ногу со временем и не отставать от конкурентов.

Сбор и обработка информации таят в себе некоторые трудности, но этот процесс не настолько сложен, как порой может показаться.

Вот пример. Сотрудники Колумбийского университета и Microsoft провели совместное исследование, сравнивая разные поисковые запросы медицинского характера в Bing (поисковая система Microsoft) и заболевания, с которыми указанные симптомы сопоставимы. Все мы хоть раз в жизни да искали в интернете причины головной боли или узнавали, чем чревато то или иное заболевание. С этой информацией и работали исследователи. Оказалось, что способ сбора данных и работа с ними через поисковик очень похожи на то, что мы и врачи делаем постоянно. Ничего нового в этом процессе не было: собираются симптомы, выбираются характерные, которые точно описывают ситуацию, а затем их сопоставляют с возможными заболеваниями.

Главное при работе с большими объемами данных — исключить элемент субъективности. Поскольку на весь процесс может оказать существенное влияние личный опыт исследователя — подобно тому, как неопытный врач ошибается с диагнозом.

Цель исследователей, собирающих и обрабатывающих большие данные, заключается в том, чтобы понять мир и людей, сложить адекватную картину реальности на основе того, что может быть собрано Google, Facebook или другими источниками.

Возможно, Фрейд был прав?

Зигмунд Фрейд утверждал, что сны — это отражение наших переживаний, душевных волнений, скрытых желаний. До недавнего времени проверить его теорию было невозможно. Наука просто не располагала достаточными объемами данных.

Сет Стивенс-Давидовиц исследовал информацию, которую ему предоставили разработчики приложения для записи сновидений Shadow, и узнал кое-что очень интересное. Например, банан как предмет фаллической формы занимает второе место в рейтинге предметов, получивших отражение в снах пользователей. Отец психоанализа мог бы удовлетворенно потереть ладони... Но не тут-то было! На самом деле бананы так часто попадают в сны, потому что входят в тройку наиболее часто потребляемых фруктов.

Огурцы фигурируют в снах куда реже, коррелируя со своим местом в рейтинге популярности потребления. Хот-доги не конкурируют с гамбургерами по своей популярности. И дело не в их форме и скрытых желаниях людей, а в том, что во сне мы чаще видим то, что чаще покупаем.

Примерно такая же история и с опечатками. С помощью ботов, подключенных к исследованию, удалось выяснить, что статистика «опечаток по Фрейду» ничем не отличается от статистики обычных опечаток, не имеющих сексуального подтекста. Просто на «фрейдистские» ошибки мы обращаем больше внимания.

Так что получается — Фрейд был неправ? Не совсем. К примеру, наиболее частые запросы на PornHub связаны с инцестом. Похоже, Эдипов комплекс и комплекс Электры, описанные Фрейдом, вовсе не пустая выдумка великого психолога.

К этой статистике органично присоединяются данные из Google. 83% поисковых запросов типа «Я хочу секса с...» связаны с матерью.

Кто бы мог подумать, что теорию Фрейда можно будет опровергать или доказывать столь необычным способом! Поисковые запросы и данные, получаемые на порносайтах, по своей искренности намного превосходят любые опросники самых изощренных исследователей-психологов. Ведь когда человек гуглит, ему не приходит в голову волноваться о том, что кто-то увидит его запросы: разве это может иметь значение?

Так Google Trends оказался могущественным инструментом для исследования современного человека.

Переосмысление данных

А еще Google смог стать отличным помощником в предсказании ежегодных эпидемий гриппа. По самым частым и рано появляющимся запросам о симптоматике гриппа можно сделать достоверный вывод о том, что грядет очередная эпидемия. С этим Google отлично справляется. Аналогично можно предсказать рост и спад рынка недвижимости.

А как насчет безработицы?

Оказалось, что с помощью поисковых запросов Google можно предсказать и это. Характерный признак пика безработицы — рост числа запросов о порносайтах. Этот неожиданный факт обнаружили американские исследователи. Объяснение простое: у безработных появляется больше времени — почему бы им не развлечься? Этим они и занимаются, пока биржа труда ищет для них вакансию, а государство выплачивает пособие по безработице (средний размер пособия по безработице в США в 2019 году — от 500 до 1500 долларов в месяц, в зависимости от зарплаты на прежнем месте работы).

Теперь предсказать очередной скачок безработицы довольно просто: достаточно анализировать запросы, связанные с популярными играми и сайтами для взрослых.

Отцы-основатели Google — Сергей Брин и Ларри Пейдж — вряд ли могли предполагать в 1998 году, что созданный ими продукт будет обладать таким могуществом, как теперь. Тогда просто возможность искать и находить информацию представлялась настоящим волшебством. Но дело не только в том, чтобы обрабатывать большие объемы данных. Важно еще учитывать качество источников, чтобы пользователь получал надежную и проверенную информацию.

Поиск информации — процесс творческий. Иногда, чтобы найти что-то по-настоящему важное, приходится копать глубже.

При этом некоторые факты остаются необъяснимыми, хотя использовать их можно. Так, например, менеджеры сети супермаркетов Walmart, изучая данные продаж, узнали, что после ураганов люди активнее всего покупают клубничное печенье. Почему? Никто не знает ответа. Но если метеорологи прогнозируют ураганы, Walmart закупает больше клубничного печенья, ожидая, что спрос повысится.

Каждая задача требует своих инструментов для решения. Например, чтобы предсказать успех отношений после первого свидания, лингвисты и психологи работают с языковыми вербальными и невербальными знаками, то есть с языком тела. В ходе одного исследования выяснилось, что обилие вопросов — это верный признак провала, после которого второе свидание вряд ли состоится. И вот еще факт: мужчины, если женщина их привлекает, говорят более монотонно, считая, что это придает им мужественности, а женщины говорят мягче, тише и более короткими фразами.

Слова — великолепный индикатор почти для всего. Facebook проанализировал речь пользователей мужского и женского пола, чтобы продемонстрировать, насколько по-разному и о разном говорят мужчины и женщины. В мужской речи чаще встречается абсценная лексика, превалируют темы о видеоиграх, сексе, экономике, спорте, политике. Женская речь характеризуется большей эмоциональностью. Женщины чаще говорят о своей эмоциональной жизни, о любви и отношениях, подругах и семье.

Источником лексических данных может послужить что угодно: книги, фильмы, пьесы, выступления политиков, фотографии, статьи в СМИ. Анализ этой информации может дать очень многое — нужно лишь научиться работать с этим. Время опросников с «галочками» и ответами по шкале от 1 до 10 прошло. Теперь исследователи имеют доступ к невероятному количеству самой достоверной информации.

Цифровая сыворотка правды

Мы все врем. Так или иначе. Кто-то врет постоянно, кто-то — изредка и в особых случаях. Но чаще всего люди врут, чтобы произвести впечатление на окружающих. У человека просто нет стимула честно признаваться, сколько раз в неделю он ходит в тренажерный зал, сколько книг читает и занимается ли благотворительностью. При этом человек лжет не только другим, но и самому себе.

Но правду знает Google. И эта правда кроется в поисковых запросах. Просто введите слово «Почему...» и посмотрите, что будет дальше. Дальше будет «Почему небо голубое». Введите запрос «Почему я хочу...» и почитайте предложенные варианты продолжения. Это самые частые запросы в вашем регионе.

Google знает, что люди чаще сожалеют о том, что решились на рождение ребенка, чем о том, что не решились. А ведь в этом мы не сознаемся даже самим себе — ночью, в одиночестве и темноте. Признаться в этом — один из самых социально осуждаемых поступков.

А вот что знает Facebook. Считается, что с того момента, когда в обществе стали лояльно относиться к однополым отношениями, количество гомосексуалов резко увеличилось. Но их число остается неизменным. 2,5% — среди американских мужчин. По данным Google — 5%, если исходить из числа обращений к сайтам для взрослых. Иллюзорное увеличение количества открытых гомосексуалов может быть связано с конкретными регионами, где к ним относятся более толерантно. В менее терпимых регионах число мужчин-геев примерно такое же, но большинство их стараются вести гетеросексуальную жизнь, оставаясь честными лишь с поисковиками.

Так, в 2007 году президент Ирана заявил, что в его стране геев нет. В 2014 году мэр Сочи сказал, что в будущей олимпийской столице их тоже нет. А вот пользовательские запросы в Google утверждают обратное.

Мужчины и женщины часто спрашивают поисковик о гениталиях, с той лишь разницей, что женщин интересуют вопросы здоровья, а мужчин беспокоит, как вы понимаете, размер. Женщины чаще хотят узнать способы удовлетворить своего партнера, а мужчины — способ получить это удовлетворение.

Любопытным оказалось изучение американских стереотипов, связанных с расой, вероисповеданием и сексуальной ориентацией. Эти стереотипы таковы, что чернокожих чаще считают хамами, евреев, мусульман и геев — злом, а христиан — дураками. Эти убеждения варьируются в зависимости от социальной ситуации и сопутствующих событий, но в целом всегда примерно одинаковы, разве что уровень «исламофобии» повышается после каждого теракта.

Это говорит о том, что цель, к которой стремится Америка, — быть толерантной страной, пока что очень далека. О своей расовой и религиозной неприязни большинство людей просто не говорят. Зато Google знает каждый запрос со словом «ниггер».

Человечество стремится к равенству полов, но запросы в поисковике полны старых стереотипов: те, что связаны с интеллектом, относятся к сыновьям. А вот все, что связано с физической привлекательностью — к дочерям. В США больше мальчиков с избыточным весом, чем девочек, но родителей волнует похудение дочерей.

Когда в 2007 году Америку охватил экономический кризис, неожиданно всплыла интересная статистика. В штатах, наиболее пострадавших от рецессии, увеличилось число детских смертей по вине или неосторожности родителей. А вот число обращений от соседей и других неравнодушных резко снизилось: людям просто некогда стало заниматься чужими делами — хватало своих проблем. В то же время увеличилось число запросов от детей, отчаянно ищущих помощи и внимания, от женщин, желающих самостоятельно прервать беременность. Официальные данные по нелегальным абортам в США довольно расплывчаты и не отражают реальную ситуацию, особенно когда речь заходит о штатах, в которых у женщин меньше возможностей сделать аборт. Прояснить истинную картину может Google. Для этого нужно лишь углубиться в данные, которые он предоставляет.

Google и Facebook говорят нам, что реальность хуже, чем мы о ней думаем, и хуже, чем ее отражают официальные источники.

Приглядимся повнимательнее

Большие данные обладают уникальным свойством: они позволяют увидеть то, что не может вскрыть ни один опросник.

Например, принято считать, что Америка — страна больших возможностей. Но исследование большого массива данных из социальных сетей и поисковиков показало, что больше всего верят в «американскую мечту» — то есть в то, что бедный человек без связей может разбогатеть, — в Канаде и Дании! И даже консервативные британцы верят в это больше, чем американцы.

Благодаря большим данным ученые смогли разобраться в важном для государства вопросе: почему одни люди платят налоги, а другие — нет. Решение оказалось на удивление простым: больше всего жульничают с налогами там, где проживает больше налоговых консультантов и специалистов в сфере налогообложения.

Еще один факт, установленный при помощи статистики: место рождения влияет на возможность жизненного успеха.

Например, в США больше шансов добиться успеха в жизни и прославиться получают те, кто родился в Калифорнии или в штате Массачусетс. Во-первых, в этих штатах богатейшая студенческая жизнь, то есть в сфере образования задействованы многие жители. Во-вторых, в этих штатах есть город-мегаполис. Успешные люди, по статистике, рождаются чаще в крупных городах или проживают там в детстве.

Есть еще один стереотип, который опровергают большие данные: о том, что жестокие фильмы влияют на уровень преступности. Да, действительно, влияют, но, как оказалось, наоборот: во время и после демонстрации жестоких фильмов преступность в том регионе, где он показывался, снижалась. Потому что людям было интереснее посмотреть фильм и хорошо провести время в кинотеатре.

Ученые были шокированы этим фактом. Они несколько раз перепроверили данные, но результат получался тот же: жестокие фильмы в кинотеатрах снижают уровень преступности в день показа и до утра следующего дня. Во время просмотра фильма, возможно, выплескивается скрытая агрессия. А в кинотеатрах к тому же не продается спиртное.

Весь мир — лаборатория

Одна из самых серьезных проблем в любом исследовании — установление причинно-следственной связи. Например, можно утверждать, что все, кто пили воду, умерли. Это факт. Но связи между питьем воды и смертью нет.

Рандомизированное контролируемое исследование — золотой стандарт, применяемый для выявления причинно-следственных связей. Участников исследования делят на две группы случайным образом: одна рабочая группа, а другая — контрольная. Рабочая группа выполняет некое действие, контрольная — нет. Результаты сравниваются. Так исследуются все лекарственные препараты. Если различий между рабочей и контрольной группами не будет, препарат считается непригодным для лечения.

В маркетинге рандомизированные исследования называются А/В-тестированием. По сути, они выполняют ту же функцию, то есть проверяют, как объекты влияют на людей. Например, кнопка какого цвета на сайте вызывает больше желания на нее кликнуть: зеленая или красная? Какое фото получит больше откликов: одиночное или в кругу друзей? Какой текст является более привлекательным для продажи: простой и короткий или сложный и длинный?

Результаты иной раз поражают самих маркетологов: то, что они считали выигрышным, может не вызвать никакой реакции у потребителя. Если вы работаете в маркетинге, то именно А/В-тестирование может дать вам самые ценные результаты.

Однако и здесь легко попасть в ловушку причинно-следственных связей. Принято считать, что самая эффективная реклама размещается перед праздниками. В этот период возрастает количество продаж всего и везде. Но на самом деле, рост продаж никак не связан с рекламой. Он связан лишь с тем, что перед праздниками люди в любом случае покупают подарки своим близким. Есть ли смысл вкладываться в рекламу в этот период? Проведите А/В-тестирование.

Другим любопытным методом исследования причинно-следственных связей выступает натурный эксперимент. Здесь нет групп в строгом смысле, а лабораторией служит сама жизнь. Порой сами участники исследования не знают о том, что являются участниками. Так изучают школьников, студентов, медиков, лотереи, карьерные успехи и так далее.

Описывая результаты исследования, очень важно понимать существенное различие между причинно-следственной связью и корреляцией. Корреляция говорит о связи двух факторов, но необязательно о их взаимообусловленности.

Большие данные: чего они не могут?

Big data может предсказать многое — от уровня расовой нетерпимости до количества абортов. Но этими важными социальными темами интересуется не так много людей — по сравнению с теми, кто хотел бы заработать на больших данных. Встает вполне закономерный вопрос: а можно ли при помощи поисковиков и социальных сетей предсказать движения на бирже? Ответ прост: нет.

Большие данные прекрасно работают в самых разных условиях. Благодаря им можно изучать социально-экономическую ситуацию, политические настроения в обществе и многое другое. Но предсказать рост или падение цен на бирже большие данные не могут.

Когда-то компьютерщики из двух крупных американских университетов уже пытались спрогнозировать движение на фондовом рынке, используя Twitter. Изучив несметное количество числовых и текстовых сообщений, они пришли к выводу, что, например, через шесть дней после преобладания твитов, где фигурирует слово или тема «спокойствие», растет промышленный индекс Доу-Джонса. Основываясь на этих результатах, ученые основали хедж-фонд. Уже через месяц этот хедж-фонд был ликвидирован, потому что прогнозы не оправдались.

Почему это случилось? Потому что ученые задействовали слишком много данных и просто-напросто не смогли установить верную причинно-следственную связь, связав между собой параметры, которые нельзя было связывать.

Похожая история случилась в 1998 году с генетиком Робертом Пломином, который пытался найти ген, отвечающий за уровень IQ. Данных было слишком много, совпадения оказались лишь статистической случайностью, и «ген высокого IQ» так и не был открыт.

Маркетологи, экономисты и прочие любители цифровых показателей должны смириться: измерить, посчитать и провести причинно-следственные связи можно не всегда и не везде, а обилие данных необязательно дает положительные результаты. Зачастую получается так, что мы не в состоянии измерить то, что нам действительно нужно. Например, эмпатию, критическое мышление, уровень развития личности и так далее.

Большие данные великолепны, но они не могут дать ответов на абсолютно все вопросы.

Больше данных — больше проблем? Чего нам не стоит делать?

Интересное исследование провели три экономиста Колумбийского университета. В попытке понять достоверно, кому стоит давать кредит, а кому нет, они исследовали огромный массив информации от заявителей и пришли к неожиданному выводу, который разрушил все стереотипы. Выпускники университетов и те, кто хорошо разбирается в банковской терминологии, гораздо лучше выплачивают кредиты, чем те, кто говорит о боге и слезно обещает выплатить деньги, которые нужны сейчас, скажем, на лечение. И еще одно: использование слов благодарности в обращении для получения кредита — сигнал к более чем вероятному его невозврату.

И вот тут на пути технологии вступает этика. Этично ли пользоваться подобными данными? А вдруг человеку или его близким действительно срочно нужна помощь, а банк откажет в займе из-за статистики? Мир, в котором такое возможно, непригляден.

Или вот пример. Кембриджский университет, Microsoft и Facebook выяснили, как лайки могут отражать уровень интеллекта пользователей, и собрали несколько маркеров, которые говорят о вероятности более высокого или более низкого IQ. Например, любители Моцарта, гроз и картофеля отличаются более высоким интеллектом в статистическом выражении, а фанаты мотоциклов, музыкальных кантри-групп и подписчики сообществ о материнстве — более низким. Известно, что компании не любят вникать в частности, так что они смогут не принять на работу того, кто потенциально, по данным Facebook, любит вещи, которые якобы говорят о его низком уровне интеллекта. Ведь и среди любителей мотоциклов есть люди с высоким IQ. Этично ли использовать такие данные? Однозначно нет.

Еще больше пугают большие данные в руках правительств. Забил в поисковике «подделка денег», и где-то у кого-то загорелась красная кнопка. Да, большие данные могут помочь, но могут и навредить. Любопытные люди, искавшие какую-то информацию, окажутся в опасной ситуации.

Большие данные — это кладезь полезной, применимой для разных целей информации. Но важны не данные сами по себе, а то, в чьи руки они попадают и как обрабатываются. В большом массиве легко допустить ошибку, обвинить невиновных, сделать ложные выводы. В руках профессионалов большие данные будут способны решить множество серьезных общественных и экономических вопросов. Данные поисков сегодня открыты для всех — бери и изучай. Это, конечно же, хорошо, но повышает риск неверных их истолкований.