Измеряем неизмеримое: 2 способа получить полезную информацию из небольших объемов данных
Когда дело доходит до статистики, существует множество заблуждений. Даже люди с научным образованием разделяют некоторые из этих распространенных заблуждений. Одно заблуждение, которое влияет на измерения практически во всех областях, — это осознанная потребность в большом размере выборки, прежде чем вы сможете получить полезную информацию из измерения.
Измерения часто игнорируются, не выполняя никаких вычислений, потому что кто-то считает, что им нужен больший размер выборки, чтобы быть «статистически значимыми». Мы видим примеры такой мысли повсюду. В спорте, например, мы отвергаем прогностические показатели, потому что они, естественно, работают с небольшими размерами выборки (в конце концов, сезон длится не так долго, в конце концов, только с таким количеством игр), предпочитая вместо этого использовать «интуитивное чутье» и «экспертные знания».
Другими словами, измерение не бесполезно, если размер выборки небольшой. На самом деле вы можете использовать небольшие размеры выборки, чтобы узнать что-то полезное о чем угодно — даже, как мы скоро увидим, с действительно небольшими выборками.
И если вы можете узнать что-то полезное, используя ограниченные данные, которые у вас есть, вы на один шаг ближе к измерению того, что вам нужно измерить, и, таким образом, к принятию более правильных решений. Фактически, именно в тех самых ситуациях, когда у вас много неопределенности, несколько проб могут уменьшить неопределенность в наибольшей степени. Другими словами, если вы почти ничего не знаете, почти все вам что-то скажет.
В книге «Как измерить что угодно: определение ценности нематериальных активов в бизнесе» Дуг Хаббард использует два незаметных статистических принципа, чтобы продемонстрировать, как даже небольшие объемы данных могут дать много полезной информации: «Правило пяти» и «Урна тайны».
Правило пяти
Представьте на мгновение, что вы принимаете решения в большой корпорации с 10 000 сотрудников. Вы планируете автоматизировать часть рутинной деятельности, например, планирование встреч или подготовку отчетов о состоянии дел. Но вы столкнулись с большой неопределенностью и считаете, что вам нужно собрать больше данных. В частности, вам нужно знать, сколько времени типичный сотрудник тратит каждый день в пути.
Как бы вы собрали эти данные?
Вы можете создать что-то вроде переписи, в которой вы опрашиваете каждого из 10 000 сотрудников. Но это было бы очень трудоемко и дорого. Вы, вероятно, не захотели бы столкнуться с подобными проблемами. Другой вариант — получить шаблон, но вы не уверены, какой именно шаблон будет полезным.
Что, если бы вам сказали, что вы можете получить достаточно информации, чтобы принять решение, отобрав всего пять человек?
Допустим, вы случайным образом выбираете пять человек из своей компании. Конечно, людям сложно быть полностью случайными, но давайте предположим, что процесс выбора был настолько случайным, насколько это возможно.
Затем, допустим, вы просите этих пятерых человек дать вам общее время в минутах, которое они проводят каждый день в этом занятии. Результат: 30, 60, 45, 80 и 60 минут. Исходя из этого, мы можем вычислить медианное значение результатов выборки или точку, в которой ровно половина общей совокупности (10 000 сотрудников) находится выше медианы, а половина — ниже медианы.
Достаточно ли информации?
Многие люди, столкнувшись с этим сценарием, скажут, что выборка слишком мала, что она не является «статистически значимой». Но многие люди не знают, что на самом деле означает статистическая значимость.
Вернемся к сценарию. Каковы шансы, что среднее время, затрачиваемое на эту деятельность для 10 000 сотрудников, составляет от 30 до 80 минут, что является минимальным и максимальным значениями, соответственно, в опросе с участием пяти сотрудников?
Когда спрашивают, люди часто говорят где-то около 50%. Некоторые люди даже опускаются до 10%. В конце концов, это имеет смысл; у нас 10 000 сотрудников и бесчисленное количество поездок на работу в течение одного года. Как можно приблизиться к выборке, которая не считается статистически значимой?
Что ж, вот ответ: вероятность того, что среднее время, затрачиваемое населением из 10 000 сотрудников, составляет от 30 до 80 минут, составляет ошеломляющие 93,75%.
Другими словами, вы можете быть очень уверены в том, что среднее время, затрачиваемое на это, составляет от 30 до 80 минут, просто спросив пять человек из 10 000 (или 100 000, или 1 000 000 — это все та же математика).
Это может показаться широким диапазоном, но дело не в этом. Важным моментом является то, является ли этот диапазон уже, чем ваш предыдущий. Возможно, вы раньше думали, что 5 минут в день или 2,5 часа в день были разумными, учитывая то, что вы знали в то время. Маловероятно, что эти значения сейчас будут медианными для популяции. Даже при небольшом измерении с участием всего пяти человек вы значительно сузили диапазон неопределенности. Если раньше ваша неуверенность была такой высокой, теперь у вас есть гораздо лучшая идея.
Теперь предположим, что предлагаемые инвестиции дадут положительный результат, даже если среднее время, затрачиваемое на них, составляет 10 минут на человека в день. То есть, если среднее затраченное время превышает 10 минут, предлагаемые инвестиции принесут больше пользы, чем безубыточность. В этом случае вы уже достаточно снизили неопределенность, чтобы быть уверенным в своем решении инвестировать. Точно так же вы были бы уверены, что отклоните инвестиции, если бы безубыточность составляла 2 часа. Если ваш перерыв составлял, скажем, 45 минут, вы можете рассмотреть возможность дальнейшего отбора проб, прежде чем принимать решение.
Итак, принятие лучших решений — это получение ценной информации из измерений данных. Но не требуется много данных, чтобы получить что-то полезное для работы.
Что, если бы вы могли узнать что-то полезное, имея еще меньше информации?
Урна тайны
Представьте себя на складе. Перед вами стоит мужчина — мы скажем, что он одет как карнавальный зазывающий, в модном красном пальто, в цилиндре и с озорным выражением лица. (Это далеко от обычной корпоративной офисной среды :)
Карнавальный зазывала машет рукой в сторону склада. Вы видите ряды и ряды больших урн. Вы пытаетесь сосчитать их, но они продолжают идти и уходить в темные уголки склада.
«Каждая урна, — говорит он вам, — наполнена шариками, скажем, 100 000 шариков на урну. Каждый шарик в этих урнах либо красный, либо зеленый. Но смесь красных и зеленых шариков варьируется от урны к урне. Урна может содержать 100% зеленых шариков и 0% красных шариков. Или 33% зеленых и 67% красных. Или это может быть ровное деление, 50 на 50. Или что-нибудь еще в диапазоне от 0 до 100%. Все проценты одинаково вероятны. И предположим, что шарики в каждой урне были тщательно перемешаны случайным образом».
Карнавальный продолжает. «Вот мое предложение. Мы сыграем в игру со ставками. Выберем урну наугад. Тогда я готов поспорить, что шарики в этой урне либо в основном красные, либо в основном зеленые. Я даю вам коэффициент 2 к 1, и каждый раз вы будете ставить 10 долларов. То есть, если я правильно угадаю, вы потеряете 10 долларов. Если я ошибаюсь, ты выиграешь 20 долларов. И так поиграем 100 урн. Хочешь сделать ставку? » - спрашивает он с улыбкой.
Вы знаете, что если это равномерное распределение, где все проценты равновероятны, банкующий будет прав в 50% случаев. Это означает, что ваш средний выигрыш на ставку составляет 5 долларов (50% шанс проиграть 10 долларов и 50% получить 20 долларов = (0,5) (- 10) + (0,5) (20) = 5). Итак, более 100 урн вы получите около 500 долларов — плюс-минус 100 долларов или около того — к концу игры. Похоже на разумную ставку.
«Это сделка», — скажете вы.
«Что ж, давайте сделаем это для меня чуточку справедливее», — говорит ставящий. «Позвольте мне вытащить только один шарик, выбранный наугад, из урны, прежде чем я сделаю свой выбор. Это будет совершенно случайным образом. Внизу есть специальный патрубок, который дает мне ни единого шарика, не позволяя мне видеть остальное. Ты по-прежнему будешь играть со мной в эту игру?»
Вы, вероятно, как и большинство людей, думаете, что один маленький шарик в большой урне, полной шариков, не имеет значения. Это слишком мало для выборки, верно?
Большинство людей думают, что дополнительная информация либо совсем не помогает человеку, либо дает в лучшем случае небольшое маргинальное преимущество — что он выигрывает в 51% случаев, а не в 50%, или что-то в этом роде. В конце концов, есть 100 000 шариков.
Если вы по-прежнему получаете шансы 2 к 1, 51% не сильно отличается от 50%. Вы все равно выиграете.
Знаете ли вы, какой новый процент выигрышей? Вы не поверите, но если взять только одну пробу из каждой урны, его процент выигрыша подскочит с 50% до 75%. Это увеличение на 50%. Так что вы действительно выйдете из игры проигравшим.
Это называется «Правило большинства в единой выборке», которое формально гласит: «При максимальной неопределенности в отношении доли населения — такой, что вы полагаете, что эта доля может быть от 0% до 100%, причем все значения равновероятны, — существует 75% вероятность того, что одна случайно выбранная выборка принадлежит большинству населения».
Применение этих принципов к любым измерениям
«Правило пяти» и «Урна тайны» учат вас: когда вы пытаетесь что-то измерить, предполагая, что ваши методы надежны, вы даете себе более действенные данные для принятия лучших решений, которые лучше, чем простая интуиция, «шестое чувство или просто «чуйка», называйте как хотите.
Когда дело касается статистики и количественного анализа, наша интуиция часто ошибается. Мы не можем поверить, что сможем получить что-то полезное из небольшого размера выборки. И еще есть вопрос о статистической значимости.
Вот в чем дело: когда вы что-то измеряете, вы уменьшаете свою неопределенность, а это лучшее, что вы можете сделать, чтобы принять лучшее решение. И когда у вас много неопределенности (например, в случае с урнами, где доля шариков определенного цвета может составлять от 0 до 100%), тогда даже первая случайная выборка может значительно уменьшить неопределенность.
Однако первый шаг — это поверить в то, что ваша интуиция в отношении статистики, вероятности, математики и количественного анализа, вероятно, неверна. Существуют заблуждения, которые мешают вам принимать лучшие решения путем измерения и анализа данных. Лица, принимающие решения, постоянно сталкиваются с этими заблуждениями, и в результате они принимают не самые лучшие решения, на которые могли бы.
Если вы можете преодолеть грубую интуицию или «интуитивное чутье», на которое рассчитывают многие лица, принимающие решения и эксперты, и примете количественный анализ решений, вы сможете собрать больше информации, даже используя смехотворно малые размеры выборки, как в «Правиле пяти» или «Урна тайны».
Вам не нужна большая выборка, чтобы начать что-то измерять, даже нематериальные активы, которые, по вашему мнению, измерить невозможно. Даже с небольшим размером выборки вы можете уменьшить диапазон неопределенности — и, следовательно, быть на пути к принятию более правильных решений.
Перевод и адаптация материала "Two ways you can use small sample sizes to measure anything"