гланц с медико биологическая статистика с гланц м практика 1998

Описание файла

Просмотр PDF-файла онлайн

Текст из PDF

Стентон ГланцМедико-биологическаяÑÒÀÒÈÑÒÈÊÀЭлектронная книгаPrimer ofBIOSTATISTICSFOURTH EDITIONStanton A. Glantz, Ph.D.Professor of MedicineMember, Cardiovascular Reserch InstituteMember, Institute for Health Policy StudiesUniversity of California, San FranciscoMcGRAW-HILLHealth Professions DivisionNew York St. Louis San Francisco AucklandBogota Caracas Lisbon Madrid Mexico CityMilan Montreal New Delhy San JuanSingapore Sydney Tokyo TorontoСтентон ГланцМедико-биологическаяÑÒÀÒÈÑÒÈÊÀПеревод с английскогодоктора физ.-мат. наукЮ. А.

Даниловапод редакциейН. Е. Бузикашвилии Д. В. Самойловап р а к т и к аМосква 1999ББК 28Г52Данное издание выпущено в рамках программы Центрально-Европейского Университета «Books for Civil Society» при поддержке Центра поразвитию издательской деятельности (OSI — Budapest) и Института«Открытое общество. Фонд Содействия» (OSIAF — Moskow).Технический редактор А.

В. КомельковХудожники Е. Р. Гор, О. Л. ЛозовскаяКорректоры Н.Н. Юдина, Е. М. ЗаглядимоваИздательский дом «Практика», 119048, Москва, а/я 421Лицензия ЛР № 065635 от 19.01.1998Подписано в печать 19.10.1998. Формат 60 ґ 90/16. Объем 29 бум. л.Тираж 5000 экз. Заказ № 1403.Отпечатано в полном соответствии с качеством предоставленныхдиапозитивов в ОАО «Можайский полиграфический комбинат»143200, Можайск, ул.

Мира, д. 93.С. Гланц. Медико-биологическая статистика.Пер. с англ. — М., Практика, 1998. — 459 с.В книге описаны все основные методы, которыми пользуется современная ста-Г52 тистика, как параметрические, так и непараметрические: анализ различий, свя-зей, планирование исследования, анализ выживаемости. Просто и наглядно —при этом вполне строго — автор описывает принцип каждого метода, дает четкую схему применения, обязательно указывает на ограничения и возможныеошибки.

Формулы для вычисленийБ. Диаграммы чувствительностидисперсионного анализаB. Решения задачПредметный указатель42343043945610ТАБЛИЦЫ КРИТИЧЕСКИХ ЗНАЧЕНИЙ3.1.4.1.4.3.4.4.5.7.6.4.Критические значения FКритические значения tКритические значения qКритические значения q′Критические значения χ2Процентили стандартного нормальногораспределения8.6.Критические значения коэффициента ранговойкорреляции Спирмена10.7. Критические значения W10.10. Критические значения Q для попарногосравнения групп10.11. Критические значения Q для сравненияс контрольной группой10.14.

Критические значения критерия Фридмана6094110114148191264343352353358УСЛОВНЫЕ ОБОЗНАЧЕНИЯα уровень значимости (вероятность ошибки I рода); коэффициент сдвига в уравнении регрессииα′ уровень значимости при множественном сравненииа выборочная оценка коэффициента сдвигаβ вероятность ошибки II рода; коэффициент наклона в уравнении регрессииb выборочная оценка коэффициента наклонаδ величина эффекта (изменение количественного признака)d выборочная оценка величины эффектаϕ параметр нецентральностиF критерий FН критерий Крускала—Уоллисаk число сравненийl интервал сравненият число группµ среднее по совокупностиN число членов совокупностип объем выборки (численность группы)11Ррp̂Qq′qrrsΣσσ2SS(t)ss2sasbs p̂sy|xsXТttαννвнуνмежWχ2χ r2ŷХXzвероятность справедливости нулевой гипотезыдолявыборочная оценка доликритерий Даннакритерий Даннетакритерий Ньюмена—Кейлса; критерий Тьюкикоэффициент корреляции Пирсонакоэффициент ранговой корреляции Спирменасуммированиестандартное отклонениедисперсиявариация (сумма квадратов отклонений)выживаемостьвыборочная оценка стандартного отклонениявыборочная оценка дисперсиистандартная ошибка коэффициента сдвигастандартная ошибка коэффициента наклонастандартная ошибка долиостаточное стандартное отклонениестандартная ошибка среднегокритерий Манна—Уитникритерий Стьюдентакритическое значение t при уровне значимости αчисло степеней свободывнутригрупповое число степеней свободы (знаменателя)межгрупповое число степеней свободы (числителя)критерий Уилкоксонакритерий χ2критерий Фридманазначение уравнения регрессиизначение количественного признакавыборочное среднеекритерий z (величина со стандартным нормальнымраспределением)ПредисловиеПосле окончания докторантуры мне часто случалось помогатьдрузьям и коллегам разобраться с тем или иным статистическим вопросом.

Постепенно потребность в кратких интуитивнопонятных и в то же время достаточно строгих объяснениях привела к появлению двухчасовой лекции включавшей даже демонстрацию слайдов. Эта лекция охватывала использование статистических методов в медицине, ошибки в их применении испособы избежать этих ошибок. Лекции оказались настолько успешными, что теперь уже мне пришлось выслушать многочисленные предложения написать вводный курс по статистике.Так возникла эта книга. Адресована она студентам медикам,научным работникам, преподавателям и врачам практикам.

Ее сравным успехом можно использовать и для самостоятельногоизучения и в качестве учебного пособия. Например, она послужила основой курса медицинской статистики в Калифорнийском университете в Сан Франциско. Курс объемом 81 лекционный час включал первые восемь глав книги. Кроме того, еженедельно проводился семинар. Книга также использовалась причтении краткого курса статистики для студентов стоматологи-ПРЕДИСЛОВИЕ13ческого факультета. Этот курс охватывал материал первых трехглав. Кроме того книга пригодилась мне при чтении интенсивного курса, который занимал полсеместра и был рассчитан наосновательное усвоение всего материала.

Источник

Гланц с медико биологическая статистика с гланц м практика 1998

гланц с медико биологическая статистика с гланц м практика 1998

К ОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.

Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.

Перевод с английского

доктора физ.-мат. наук

Данное издание выпущено в рамках программы Центрально-Европей-

ского Университета «Books for Civil Society» при поддержке Центра по

развитию издательской деятельности (OSI — Budapest) и Института

«Открытое общество. Фонд Содействия» (OSIAF — Moskow).

Технический редактор А. В. Комельков Художники Е. Р. Гор, О. Л. Лозовская Корректоры Н.Н. Юдина, Е. М. Заглядимова Издательский дом «Практика», 119048, Москва, а/я 421 Лицензия ЛР № 065635 от 19.01.1998 Подписано в печать 19.10.1998. Формат 60 ґ 90/16. Объем 29 бум. л.

Тираж 5000 экз. Заказ № 1403.

Отпечатано в полном соответствии с качеством предоставленных диапозитивов в ОАО «Можайский полиграфический комбинат»

143200, Можайск, ул. Мира, д. 93.

С. Гланц. Медико-биологическая статистика.

Пер. с англ. — М., Практика, 1998. — 459 с.

В книге описаны все основные методы, которыми пользуется современная ста Г52 тистика, как параметрические, так и непараметрические: анализ различий, свя зей, планирование исследования, анализ выживаемости. Просто и наглядно — при этом вполне строго — автор описывает принцип каждого метода, дает чет кую схему применения, обязательно указывает на ограничения и возможные ошибки. Изящные иллюстрации и остроумный разбор примеров, взятых из ме дицинских публикаций, делают чтение легким и увлекательным. Врачам-прак тикам книга поможет грамотно, критически читать медицинскую литературу.

Для врачей-исследователей книга станет руководством по планированию, про ведению и обработке результатов исследований.

© 1994 by McGraw-Hill, Inc ISBN 0-07-024268-2 (англ.) © Перевод на русский язык, ISBN 5-89816-009-4 (русск.) Издательский дом «Практика», Посвящается Марше Гланц Оглавление Предисловие 1 Статистика и клиническая практика Ограничение финансирования и статистика Достоверность и статистическая значимость Доверяй, но проверяй Ошибки вечны? 2 Как описать данные Среднее Стандартное отклонение Нормальное распределение Медиана и процентили Выборочные оценки Насколько точны выборочные оценки Выводы Задачи 3 Сравнение нескольких групп:

дисперсионный анализ Случайные выборки из нормально распределенной совокупности Две оценки дисперсии Критическое значение F Три примера Задачи 4 Сравнение двух групп: критерий Стьюдента Принцип метода Стандартное отклонение разности Критическое значение t Выборки произвольного объема Продолжение примеров Критерий Стьюдента с точки зрения дисперсионного анализа Ошибки в использовании критерия Стьюдента Критерий Стьюдента дая множественных сравнений Критерий Ньюмена—Кейлса Критерий Тьюки Множественные сравнения с контрольной группой Что означает Р Задачи 5 Анализ качественных признаков Новости с Марса Точность оценки долей Сравнение долей Таблицы сопряженности: критерий 2 Точный критерий Фишера Задачи 6 Что значит «незначимо»:

чувствительность критерия Эффективный диуретик Два рода ошибок Чем определяется чувствительность? Чувствительность дисперсионного анализа Чувствительность таблиц сопряженности Практические трудности Зачем вычислять чувствительность? Задачи 7 Доверительные интервалы Доверительный интервал для разности средних Интервал шире—доверия больше Проверка гипотез с помощью доверительных интервалов Доверительный интервал для среднего Доверительный интервал для разности долей Доверительный интервал для доли Доверительный интервал для значений Задачи 8 Анализ зависимостей Уравнение регрессии Оценка параметров уравнения регрессии по выборке Сравнение двух линий регрессий Корреляция Коэффициент ранговой корреляции Спирмена Чувствительность коэффициента корреляции Сравнение двух способов измерения:

Какой выбрать? Сравнение двух выборок: критерий Манна—Уитни Сравнение наблюдений до и после лечения:

критерий Уилкоксона Сравнение нескольких групп:

критерий Крускала—Уоллиса Повторные измерения: критерий Фридмана Выводы Задачи 11 Анализ выживаемости Пассивное курение на Плутоне Кривая выживаемости Сравнение двух кривых выживаемости Критерий Гехана Чувствительность и объем выборки Заключение Задачи 12 Как построить исследование Каким критерием воспользоваться Рандомизация и слепой метод Достаточно ли рандомизации? Кого мы изучаем Как улучшить положение Приложения A. Формулы для вычислений Б. Диаграммы чувствительности дисперсионного анализа B. Решения задач Предметный указатель ТАБЛИЦЫ КРИТИЧЕСКИХ ЗНАЧЕНИЙ 3.1. Критические значения F 4.1. Критические значения t 4.3. Критические значения q 4.4. Критические значения q Критические значения 5.7. 6.4. Процентили стандартного нормального распределения 8.6. Критические значения коэффициента ранговой корреляции Спирмена 10.7. Критические значения W 10.10. Критические значения Q для попарного сравнения групп 10.11. Критические значения Q для сравнения с контрольной группой 10.14. Критические значения критерия Фридмана УСЛОВНЫЕ ОБОЗНАЧЕНИЯ уровень значимости (вероятность ошибки I рода);

коэф фициент сдвига в уравнении регрессии уровень значимости при множественном сравнении а выборочная оценка коэффициента сдвига вероятность ошибки II рода;

коэффициент наклона в урав нении регрессии b выборочная оценка коэффициента наклона величина эффекта (изменение количественного признака) d выборочная оценка величины эффекта параметр нецентральности F критерий F Н критерий Крускала—Уоллиса k число сравнений l интервал сравнения т число групп µ среднее по совокупности N число членов совокупности п объем выборки (численность группы) Р вероятность справедливости нулевой гипотезы р доля p выборочная оценка доли Q критерий Данна q критерий Даннета q критерий Ньюмена—Кейлса;

критерий Тьюки r коэффициент корреляции Пирсона rs коэффициент ранговой корреляции Спирмена суммирование стандартное отклонение 2 дисперсия S вариация (сумма квадратов отклонений) S(t) выживаемость s выборочная оценка стандартного отклонения s2 выборочная оценка дисперсии sa стандартная ошибка коэффициента сдвига sb стандартная ошибка коэффициента наклона sp стандартная ошибка доли sy|x остаточное стандартное отклонение sX стандартная ошибка среднего Т критерий Манна—Уитни t критерий Стьюдента критическое значение t при уровне значимости t число степеней свободы вну внутригрупповое число степеней свободы (знаменателя) меж межгрупповое число степеней свободы (числителя) W критерий Уилкоксона 2 критерий r2 критерий Фридмана значение уравнения регрессии y Х значение количественного признака выборочное среднее X z критерий z (величина со стандартным нормальным распределением) Предисловие После окончания докторантуры мне часто случалось помогать друзьям и коллегам разобраться с тем или иным статистичес ким вопросом. Постепенно потребность в кратких интуитивно понятных и в то же время достаточно строгих объяснениях при вела к появлению двухчасовой лекции включавшей даже демон страцию слайдов. Эта лекция охватывала использование ста тистических методов в медицине, ошибки в их применении и способы избежать этих ошибок. Лекции оказались настолько ус пешными, что теперь уже мне пришлось выслушать многочис ленные предложения написать вводный курс по статистике.

Так возникла эта книга. Адресована она студентам медикам, научным работникам, преподавателям и врачам практикам. Ее с равным успехом можно использовать и для самостоятельного изучения и в качестве учебного пособия. Например, она по служила основой курса медицинской статистики в Калифорний ском университете в Сан Франциско. Курс объемом 81 лекци онный час включал первые восемь глав книги. Кроме того, еже недельно проводился семинар. Книга также использовалась при чтении краткого курса статистики для студентов стоматологи ПРЕДИСЛОВИЕ ческого факультета. Этот курс охватывал материал первых трех глав. Кроме того книга пригодилась мне при чтении интенсив ного курса, который занимал полсеместра и был рассчитан на основательное усвоение всего материала. Среди многочислен ных слушателей были студенты старших курсов, аспиранты и научные сотрудники.

Эта книга имеет несколько отличий от других вводных кур сов статистики – именно эти отличия похоже и обусловили ее популярность.

Во-первых, в книге отчетливо проведена мысль, что резуль таты многих биологических и медицинских работ основаны на не правильном использовании статистических методов и спо собны только ввести в заблуждение. Большинство ошибок свя зано с неправомерным использованием критерия Стьюдента.

Причина такой концентрации, вероятно, кроется в том, что в пору учебы будущие исследователи не успели узнать о суще ствовании других статистических методов (в учебниках, по ко торым они учились, первая глава обычно посвящена критерию Стьюдента). Напротив, дисперсионный анализ, если и излага ется, то, как правило, в последней главе, до которой редко кто добирается. Между тем медицинские данные чаще требуют именно дисперсионного анализа, и именно он служит основой для всех параметрических критериев, – поэтому свою книгу я начинаю изложением дисперсионного анализа и лишь затем, как частный случай, разбираю критерий Стьюдента.

Во-вторых, насколько можно судить по публикациям, в меди цинских исследованиях крайне важно умение правильно срав нить результаты, полученные по нескольким группам. Поэтому в книге подробно описаны методы множественного сравнения.

В-третьих, я считал, что книга по медицинской статистике не должна быть калькой даже с хорошего и логически стройного учебника математической статистики. Как показывает много летняя практика, выслушав традиционный курс математической статистики, в котором методам проверки гипотез предшествует теория оценивания студент, увы, не обретет понимания связи ста тистических методов с медицинскими задачами. Поэтому я из брал иной способ подачи материала. Стержень книги образуют проверка гипотез и оценка эффективности лечения. Я глубоко убежден, что именно такой подход дидактически и практичес ки отвечает задачам медицинских исследований.

Большинство использованных в книге примеров заимство вано из реальных медицинских исследований. В ряде случаев мне пришлось пойти на упрощение данных, например, сделать равными объемы выборок. Эти упрощения позволили сосредо точиться на существе излагаемых методов, не отвлекаясь на тех нические детали. При этом если в тексте рассматривается слу чай выборок равного объема, то в приложении вы найдете фор мулы на случай выборок произвольного объема.

Готовя к печати первое издание этой книги, я задумывал его как введение, знакомящее с идеями, понятиями и методами ста тистики, – введение, за чтением которого последует более уг лубленное изучение традиционных курсов. Мои надежды оп равдались, но, кроме того, оказалось, что многие исследователи стали пользоваться книгой как практическим пособием. Это по будило меня во втором издании более широко осветить методы множественного сравнения. В третьем издании обсуждение чув ствительности критериев было пополнено рассмотрением пла нирования и анализа экспериментов. Наконец, в четвертом из дании, которое вы держите в руках, появилась новая глава, по священная анализу выживаемости. Помимо того, методы мно жественного сравнения пополнились критерием Тьюки, а в раз дел, посвященный регрессионному анализу, были включены метод сравнения кривых регрессии и метод Блэнда-Алтмана для сравнения двух способов измерения.

Надо сказать, что некоторые пожелания читателей не нашли отражения в новом издании. И сделано это было совершенно сознательно. Часть читателей советовала вместо неявного ис пользования понятий теории вероятностей дать строгое изло жение ее основ. Другие предлагали дополнить книгу изложени ем многомерных статистических методов. В частности, предла галось изложить методы множественной регрессии. Важность этих методов для меня вполне очевидна. Однако попытка рас смотреть их в рамках данной книги существенно изменила бы ее содержание. Что до пожеланий большей формальности, то они противоречат идее понятности и наглядности, то есть той ПРЕДИСЛОВИЕ идее, из которой выросла эта книга и которая принесла ей ус пех*.

К появлению книги причастны многие люди, которым я ис кренне признателен. Первым человеком, от которого еще в сту денческую пору я услышал понятное и практически ориенти рованное изложение статистики, был Джулиен Хоффман. Бла годаря ему я сумел прочувствовать эту науку, а мое понимание статистических методов стало глубже. Его неиссякаемому ин тересу и готовности к обсуждению тонкостей я обязан тем, что узнал и – важнее – ощутил статистику настолько, чтобы заду маться о написании книги. Филипп Уилкинсон и Мэрион Не стле предложили отличные примеры и высказали массу полез ных замечаний по рукописи. Стараниями Мэри Джиаммоны текст стал более понятным для студентов. Она же помогла по добрать задачи для первого издания. В работе над задачами для следующих изданий участвовали Брайан Слинкер и Джим Лай твуд. Вирджиния Эрнстер и Сьюзен Сакс не только высказали множество полезных замечаний, но и «обкатали» первоначаль ный вариант рукописи, использовав его в качестве основного пособия для 300 своих студентов. Мои ассистенты Брайан Слин кер, Кен Рессер, Б. С. Апплйард и другие высказали множество тонких замечаний, которые помогли сделать материал книги более доходчивым.

Мэри Хуртадо с поразительной быстротой и точностью пе репечатала рукопись. Томас Саммер, Соня Бок и Майкл Матри гали помогли мне в окончательном редактировании текста в си стеме UNIX. Дейл Джонсон подготовил иллюстрации.

Я признателен Национальному институту здравоохранения, удостоившему меня в 1977г гранта, который позволил не толь ко свободно развивать мои научные идеи, но и работать над кни гой, первое издание которой увидело свет в 1981 г.

* Вместе с Б. Слинкером мы опубликовали специальный вводный курс, це ликом посвященный множественной регрессии и многомерному диспер сионному анализу (S. A. Glantz, B. К. Slinker Primer of Applied Regression and Analysis of Variance New York McGraw Hill 1990). Написан он в том же свободном стиле, что я настоящая книга.

С тех пор многое изменилось. Важность грамотного исполь зования статистических методов осознается все шире. И, хотя ошибки не исчезли, все больше журналов прилагают усилия к их искоренению. Во многих из них рецензирование включает отдельный этап проверки статистической правильности пред лагаемых работ. Приведу подтверждение, наиболее ощутимое для меня. Я являюсь внештатным редактором Journal of the American College of Cardiology, и моя работа состоит в выявле нии статистических ошибок в поступающих работах. Доля ста тей, содержащих ошибки, как и раньше, составляет около по ловины, но теперь уже половины предлагаемых к публикации, а не опубликованных работ.

Наконец, я признателен многим читателям этой книги, сту дентам и преподавателям статистики, которые нашли время при слать мне вопросы, комментарии и предложения, как улучшить содержание книги. Насколько возможно, я постарался выпол нить их пожелания при подготовке четвертого издания.

Многие из приведенных в книге иллюстраций – прямые по томки тех слайдов, которые я когда-то показывал на своих лек циях. Кстати, будет совсем не плохо, если, читая книгу, вы во образите, что попали на такую лекцию. Большинство слушате лей проникались критическим духом. И, как мне рассказывали, после моих выступлений перед докторантами из Калифорнийс кого университета те доставляли немало неприятностей после дующим докладчикам, указывая на ошибки в использовании ста тистических методов. Надеюсь, что предлагаемая книга сдела ет читателя более критичным и поможет улучшить медицинс кую литературу, а, в конечном счете, и саму медицину.

Стентон А. Гланц Глава Статистика и клиническая практика Когда-то мне казалось, что медицинские журналы приходят к нам из идеального мира. В этом мире, недоступном простым смертным, авторы публикаций в совершенстве владеют статис тическими методами, а строгие редакторы ни за что не пропус тят работу со статистическими ошибками. Однако очень скоро я понял, как легко опубликовать ошибочную и просто бессмыс ленную статью, как невысок барьер на пути несостоятельной работы к читателю. Авторы и редакторы медицинских журна лов живут в том же мире, что и мы и имеют о статистике при мерно такое же представление, что и остальные его обитатели.

В этом суровом мире существует, помимо прочего, такая непри ятная вещь, как ограничение финансирования.

ОГРАНИЧЕНИЕ ФИНАНСИРОВАНИЯ И СТАТИСТИКА Медицина вступает в новую эру. Вплоть до середины XX века лечение мало влияло на сроки, да и сам факт выздоровления.

Введение в клиническую практику инсулина, пенициллина, кор 18 ГЛАВА 700 Проценты от валового национального продукта 600 500 400 Млрд. долл.

300 200 100 0 1960 1970 1980 1990 1960 1970 1980 Рис. 1.1. Ежегоднье раоходы на здравоохранение (США 1960 – 1990 гг.).

А. Абсолютнье (в миллиардах долларов). Б. Относительные (в процентах от валового национального продукта).

тикостероидов, витамина В12 радикально изменило ситуацию.

Победа над ранее неизлечимыми болезнями породила веру во всесилие науки и стимулировала дальнейшие исследования.

Разрабатывались все новые противоопухолевые психотропные гипотензивные и антиаритмические средства. Безграничный оп тимизм породил почти столь же безграничное финансирование.

В США расходы на медицину в 1991 г составили 752 миллиар да долларов или 13,2% валового национального продукта. Рас ходы росли как абсолютно, так и в процентах от валового наци онального продукта (рис 1.1). В результате ограничение расхо дов на медицину сегодня превратилось в одну из первостепен ных задач.

На протяжении всего этого периода, который похоже закан чивается, врачи и исследователи получали в свое распоряжение практически неограниченные и не обусловленные конкретны ми целями ресурсы. Помощь больному едва ли не выпала из числа показателей «хорошей медицины». Характерно, что даже для по настоящему действенных методов лечения отсутствуют СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА достоверные оценки того, как часто и насколько эффективно они помогают*. Сложившийся подход означал не просто выбрасы вание денег на ветер. Больные регулярно принимали сильно дей ствующие препараты или подвергались хирургическому вмеша тельству без серьезных оснований, но с риском серьезных ос ложнений.

Однако при чем тут статистика?

Когда поток не связанных с конкретными задачами средств умерит свои рост, медицинским работникам придется взглянуть на используемые ими средства с точки зрения их реальной от дачи. Потребуются строгие доказательства эффективности ме тодов диагностики и лечения. Мало того, что придется уяснить эффективно ли лечение, — придется выяснить также какому про центу больных оно помогает, и в какой степени. Но эти данные без помощи статистики не получишь. Естественная биологичес кая изменчивость, психотерапевтический эффект**, субъектив ность оценок — все эти факторы делают прямое суждение об эффективности лечения ненадежным. Перевести клинический опыт на язык количественных оценок — задача медицинской статистики.

Статистическому анализу может быть подвергнута не толь ко эффективность нового метода лечения, но и эффективность работы самого врача. Так в одном исследовании*** было пока зано, что больные с пиелонефритом выписываются из стацио нара в среднем на 2 дня раньше, если их лечение проводилось в * A. L. Cockrane. Effectiveness and Efficiency Random Reflections on Health Services, Nuffield Provincial Hospital Trust, London 1972.

** Эффект самого факта лечения не связанным с его физиологическим дей ствием. Чтобы выявить психотерапевтический эффект, в клинических ис следованиях применяют плацебо — неактивный препарат (например фи зиологический раствор, сахарная пилюля) либо — в случае хирургичес кого лечения — ложную операцию. В некоторых случаях, например при болях, плацебо «помогает» каждому третьему больному.

***D. Е. Knapp, D. A. Knapp, M. К. Speedie, D. M. Yager, С. I. Baker. Relationship of Inappropriate Drug Prescribing to Increased Length of Hospital Slay. Am. J.

Hasp. Pharm., 36:1134–1137, 1979. Эту работу мы подробно обсудим в гл. 9.

20 ГЛАВА строгом соответствии с рекомендациями «Настольного спра вочника врача» («Phvsicians’ desk reference»). Расходы на пре бывание в стационаре составляют значительную часть всех ме дицинских расходов, поэтому сокращение сроков госпитализа ции (разумеется, не в ущерб больному) позволило бы сэконо мить значительные средства. Считается, что бесконечному мно гообразию случаев должно соответствовать бесконечное мно гообразие методов лечения. Данное исследование – сильный, хотя и не бесспорный, довод в пользу большей стандартизации.

Поиск новых методов диагностики и лечения выбор наилуч шего из уже принятых – везде статистические соображения иг рают не последнюю роль. Чтобы принять полноправное учас тие в обсуждении этих вопросов, врач должен быть знаком с принципами и основными методами статистики.

До сих пор медики редко участвовали в обсуждении статис тических вопросов, на первый взгляд далеких от врачебной прак тики и носящих сугубо технический характер. Однако по мере ужесточения требований к использованию ресурсов медикам следует научиться проверять обоснованность претензий на эф фективность и с большим пониманием участвовать в распреде лении средств. И основой для этого служит статистика.

ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ Рассмотрим типичный пример применения статистических мето дов в медицине. Создатели препарата предполагают, что он увели чивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата. По результатам наблюдений строят график зависимос ти диуреза от дозы (рис. 1.2А). Зависимость видна невооружен ным глазом. Исследователи поздравляют друг друга с открытием, а мир — с новым диуретиком.

На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, — не более чем предполо СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА А Б Суточный диурез Суточный диурез Доза Доза Рис. 1.2. А. У 5 добровольцев измерили суточный диурез после приема разных доз препарата (предполагаемого диуретика). Зависимость диуреза от дозы казалась бы на лицо, чем больше доза – тем больше диурез. Можно ли считать диуретический эффект препарата доказанным? Б. Такую картину мы увидели бы, если бы могли исследовать связь дозы и диуреза у всех людей: зависимости нет в помине. Пять человек, вошедших в первоначальное исследование, помечены черным. В данном случае мнимая зависи мость порождена случайностью. С помощью статистических методов можно оценить вероятность подобной ошибки.

жение. Нельзя сказать, что оно беспочвенно – иначе, зачем ста вить эксперименты?

Но вот препарат поступил в продажу. Все больше людей при нимают его в надежде увеличить свой диурез. И что же мы ви дим? Мы видим рис 1.2Б, который свидетельствует об отсут ствии какой либо связи между дозой препарата и диурезом. Чер ными кружками отмечены данные первоначального исследова ния. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость»

наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки.

Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез 22 ГЛАВА ность статистики. Он говорит о другом, о вероятностном харак тере ее выводов. В результате применения статистического ме тода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кро ме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности.

ДОВЕРЯЙ, НО ПРОВЕРЯЙ О новых методах диагностики и лечения врачи узнают глав ным образом из публикации в медицинских журналах. Позна ния читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная про верка результатов. К сожалению, проводится она далеко не все гда.

На рис. 1.3 суммированы результаты четырех исследовании использования статистических методов в статьях опубликован ных в медицинских журналах с 1950 по 1976 г *. Разумеется, ис * О. Б. Росс мл. (О. В. Ross, Jr. Use of controls in medical research. JAMA, 145:72–75, 1951) рассмотрел 100 статей, опубликованных в Journal of the Amencan Medical Association, American Journal of Medicine, Annals of Internal Medicine, Archives of Neurology and Psychiatry и American Journal of Medical Sciences в 1950 г. Р. Бэдгли (R. F. Badgley. An assessment of research methods reported in 103 scietific articles from two Canadian medical journals.

Can. M. A. J., 85:256–260, 1961) рассмотрел 103 статьи опубликованные в журналах Canadian Medical Association Journal и Canadian Journal of Public Health в 1960 г. С. Шор и И. Картен (S. Schor, I. Karten Statistical evaluation of medical journal manuscripts, JAMA 195:1123–1128, 1966) рас смотрели 295 статей, опубликованных в журналах Annals of Internal Medicine, New England Journal of Medicine, Archives of Surgery, American Journal of Medicine, Journal of Clinical Investigation, Amencan Archives of Neurology, Archives of Pathology и Archives of Internal Medicine в 1964 г. С. Гор, И. Джонс и Э. Ритгер (S. Gore, I. G. Jones, Е. С. Rytter Misuses of statistical methods critical assessment of articles in В M J from January to March, 1976, Br. Med. J., 1 (6053):85–87, 1977) рас СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА Доля статей с ошибками, % 1950 1960 1970 Рис. 1.3. Доля медицинских статей, содержащих статистические ошибки. Невозможно рассмотреть все статьи, публикуемые в медицинских журналах, поэтому долю опреде ляли по некоторой случайной выборке. В результате появляется оценка истинной доли статей с ошибками, на рисунке эти оценки показаны кружками. Вертикальные отрезки — это доверительный интервал, то есть пределы в которых, скорее всего, находится истинная доля статей с ошибками.

следования могли охватить лишь часть напечатанного, поэтому выявленная в исследованиях доля статей содержащих статис тические ошибки служит лишь приближенной оценкой истин ной доли. Вертикальные черточки на рис. 1.3 указывают диапа зон называемый доверительным интервалом, в который с высо кой вероятностью попадает истинная доля статей с ошибками.

Вычисление доверительных интервалов — один из разделов ста тистики, с которым нам предстоит познакомиться. Как мы ви смотрели 77 статей, опубликованных в журнале British Medical Journal в 1976 г. Сравнительно недавнее изучение более ограниченной подборки журналов показало, что проблема статистических ошибок в медицинских публикациях не потеряла своей значимости (См. J. Davies, A critical survey of scientific methods in two psychiatry journals, Aust. N. Z. J. Psych., 21:367– 373, 1987;

D. F. Cruess. Review of the use of statistics in the American Journal of Tropical Medicine and Hygiene for January–December 1988. Am. J. Trop.

Med. Hyg., 41:619–626, 1990) 24 ГЛАВА дим, статистические ошибки встречаются примерно в полови не статей. Однако дальнейшие исследования показали, что жур налам, в которых взяли за правило обращать внимание не толь ко на медицинскую, но и статистическую сторону дела удалось существенно снизить долю ошибочных статей. Эта доля нима ло не изменилась в тех журналах, которые так и не ввели стати стического рецензирования.

Врачам известно множество методов диагностики и лечения, эффективность которых была «доказана» статистическими ме тодами и которые, тем не менее, канули в Лету, не выдержав проверки практикой. А сколь часто приходится читать статьи, в которых статистические манипуляции с одними и теми же дан ными приводят к прямо противоположным выводам. Все это наводит читателя на мысль, что статистические методы либо ненадежны, либо слишком трудны для понимания, либо вооб ще не более чем инструмент недобросовестного исследователя.

Между тем даже начального знакомства со статистикой в соче тании со здравым смыслом обычно достаточно чтобы понять, что предлагает нам автор в качестве «доказательств». По иро нии судьбы ошибки редко связаны с тонкими статистическими вопросами. Как правило, это простейшие ошибки такие, как от сутствие контрольной группы использование неслучайных вы борок или пренебрежение статистической проверкой гипотез.

По неизвестным науке причинам такие ошибки неизменно сме щают результаты исследования в пользу предлагаемого автором метода.

Вред, приносимый ошибками такого рода, очевиден. Иссле дователь заявляет о «статистически достоверном» эффекте ле чения, редактор помещает статью в журнал, врач неспособный критически оценить публикацию, применяет неэффективный метод лечения. В конце этой цепи находится больной, который и расплачивается за все, подвергаясь ненужному риску и не по лучая действительно эффективного лечения. Не следует сбра сывать со счетов и ущерб от самого факта проведения бессмыс ленных исследований. Деньги и подопытные животные прино сятся в жертву науке, больные рискуют ради сбора ошибочно интерпретируемых данных.

Сегодня грамотная проверка эффективности лечения стано СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА вится первоочередной задачей. Исследования должны тщатель но планироваться, а результаты правильно интерпретироваться.

Поскольку описанные ошибки совершаются в массовом поряд ке, ничто не побуждает исследователей корректно использовать статистические методы. Редко кому приходилось слышать кри тические замечания, на сей счет. Наоборот, исследователи час то опасаются, что их коллеги, а особенно рецензенты, сочтут грамотно и полно изложенную статистическую процедуру вы сокомерной теоретизацией.

Журналы призваны быть оплотом качества научных иссле довании. В некоторых редакциях действительно осознали, что их рецензенты не слишком сведущи в использовании элемен тарной статистики, и изменили саму процедуру рецензирова ния. Теперь перед тем как направить рукопись на рецензию, ее тщательно проверяют на предмет правильности использования статистических методов. Результатом этого нередко становится пересмотр используемых в статье статистических методов, а иногда и самих выводов*.

Но большинство редакторов, похоже, убеждены, что каждый рецензент рассматривает статистическую сторону работы столь же тщательно, сколь и собственно медицинскую. Неясно, одна ко, как он может это сделать — ведь даже авторы ведущих ме дицинских журналов, упоминая статистическую проверку ги потез, редко затрудняют себя указанием, какой именно крите рий был использован.

Коротко говоря, для грамотного чтения медицинской лите ратуры необходимо научиться понимать и оценивать правиль ность применения статистических методов, используемых для анализа результатов. К счастью, основные идеи, которыми необ * Подробнее о существующей в редакциях практике работы с рукописями см. М. J. Gardner, J. Bond An exploratory study of statistical assessment of papers published in the British Medical Journal. JAMA, 263:1355–1357, 1990, a тaкжe S. А. Glantz It is all in the numbers. J. Am. Coll. Cardiol., 21:835–837, 1993.

26 ГЛАВА ходимо овладеть вдумчивому читателю (и, конечно, вдумчиво му исследователю), довольно просты. В следующей главе мы приступим к их обсуждению.

Глава Как описать данные В этой книге мы встретимся с двумя типами задач. Первый тип задач, — как сжато, описать данные. Этими задачами занимает ся так называемая описательная статистика. Задачи второго типа связаны с оценкой статистической значимости различий и во обще с проверкой гипотез. В этой главе мы рассмотрим задачи первого типа — как наилучшим образом описать данные.

Если значения интересующего нас признака у большинства объектов близки к их среднему и с равной вероятностью откло няются от него в большую или меньшую сторону, лучшими ха рактеристиками совокупности будут само среднее значение и стандартное отклонение. Напротив, когда значения признака распределены несимметрично относительно среднего, совокуп ность лучше описать с помощью медианы и процентилей.

Возможно, сказанное давно вам известно. Тогда смело пере ходите к следующей главе. Тех же, для кого термины вроде про центиля звучат туманно, мы приглашаем приступить к изуче нию марсиан.

28 ГЛАВА Поначалу займемся, каким-нибудь количественным призна ком, например ростом. Чтобы попусту не фантазировать слета ем на Марс и измерим всех марсиан благо их всего две сотни.

Результаты приведены на рис. 2.1 (мы округлили рост до целого числа сантиметров). Каждому марсианину соответствует кру жок так, что, например два кружка над числом 30 означают, что имеются два марсианина ростом 30 см. Рис 2.1 это распределе ние марсиан по росту. Мы видим, что рост большинства марси ан — от 35 до 45 см. Коротышек (ниже 30 см) совсем немного — всего трое, и столько же великанов (выше 50 см).

Окрыленные успехом марсианского проекта мы решаем из мерить венецианцев. Легко находим деньги на путешествие и, вооружившись линейками, измеряем всех 150 обитателей Ве неры. Научный отчет об экспедиции будет звучать так: «Редко встретишь венерианца ниже 10 см или выше 20 см, а чаше по падаются 15-сантиметровые, см. рис. 2.2».

Но вот остались позади нелегкие межпланетные перелеты.

Настала пора скрупулезного анализа данных. Сравним рис. 2. и 2.2. Мы видим, что венерианцы ниже марсиан и что интервал, в Марсиане N = 30 35 40 45 Рис. 2.1. Распределение марсиан по росту. Каждому марсианину соответствует кружок.

Обратите внимание, что марсиан среднего роста (около 40 см) больше всего и что высо корослых столько же, сколько коротышек — распределение симметрично.

КАК ОПИСАТЬ ДАННЫЕ который умещается рост всех марсиан шире, чем соответству ющий интервал для венерианцев. Ширина интервала, в кото рый попадают почти все марсиане (194 из 200) — 20 см (от до 50 см). Рост большинства венерианцев (144 из 150) умещает ся в интервал от 10 до 20 см, то есть имеет ширину всего лишь 10 см. Несмотря на эти различия между двумя совокупностями инопланетян имеется и существенное сходство. В обоих рост любого члена скорее близок к середине распределения, нежели заметно от нее удален и одинаково вероятно может быть как выше, так и ниже середины. Распределения на рис. 2.1 и 2. имеют схожую форму и приближенно определяются одной и той же формулой.

Раз существует множество похожих распределений, значит, для характеристики одного из них достаточно указать чем оно отличается от других ему подобных, то есть всю собранную ин формацию мы можем свести к нескольким числам, которые на зываются параметрами распределения. Это среднее значение и стандартное отклонение.

• •• •• • •• • • N = 10 15 • •••, •• Рис. 2.2. Распределение венерианцев по росту. Венерианцы ниже марсиан, разброс зна чений меньше. Однако по форме распределения, напоминающей колокол, венерианцы и марсиане схожи друг с другом.

30 ГЛАВА Расположив мысленно распределения марсиан и венерианцев на одной шкале роста, мы увидим, что распределение венери анцев находится ниже, чем распределение марсиан. Характери стика положения распределения на числовой оси называется средним. Среднее по совокупности обозначают греческой бук вой µ (читается «мю») и вычисляют по формуле:

Сумма значений признака для всех членов совокупности Среднее по совокупности =.

Число членов совокупности Эквивалентное математическое выражение имеет вид X, µ= N где X — значение признака, N — число членов совокупности.

Как всегда, большая греческая буква (читается «сигма») обо значает сумму. Подставив в формулу добытые нами данные, получим ценное дополнение к научному отчету: средний рост марсиан 40 см, а венерианцев — 15 см.

СТАНДАРТНОЕ ОТКЛОНЕНИЕ Еще на Венере мы заметили, что тамошние жители более одно родны по росту, нежели марсиане. Хотелось бы и это впечатле ние оформить количественно, то есть иметь показатель разбро са значений относительно среднего. Ясно, что для характерис тики разброса все равно, в какую сторону отклоняется значение — в большую или меньшую. Иными словами, отрицательные и положительные отклонения должны вносить равный вклад в ха рактеристику разброса. Воспользуемся тем, что квадраты двух равных по абсолютной величине чисел равны между собой, и вычислим средний квадрат отклонения от среднего. Этот пока затель носит название дисперсии и обозначается 2. Чем боль ше разброс значений, тем больше дисперсия. Дисперсию вы числяют по формуле:

КАК ОПИСАТЬ ДАННЫЕ ( X µ ) =.

N Как видно из формулы, дисперсия измеряется в единицах, равных квадрату единицы измерения соответствующей величи ны. Например, дисперсия измеряемого в сантиметрах роста сама измеряется в квадратных сантиметрах. Это довольно неудобно.

Поэтому чаще используют квадратный корень из дисперсии — стандартное отклонение (маленькая греческая буква «сиг ма»):

N Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев — 2,5 см.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Таблица 2.1 сжато представляет то, что мы узнали о марсианах и венерианцах. Таблица очень информативна, из нее можно уз нать об объеме совокупности, о среднем росте и о том, насколь ко велик разброс относительно среднего.

Вновь обратившись к рис. 2.1 и 2.2, мы обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от среднего не более чем на одно стандартное отклонение и при мерно 95% — на два стандартных отклонения. Подобные рас пределения встречаются очень часто. Можно сказать, что это про исходит всегда, когда некая величина отклоняется от средней под действием множества слабых, независимых друг от друга факто Таблица 2.1. Параметры распределения марсиан и венериан цев по росту Объем Стандартное совокупности Среднее, см отклонение, см Марсиане 200 40 Венерианцы 150 15 2, 32 ГЛАВА ров. Распределение такого рода называется нормальным (или гауссовым) и описывается формулой:

Заметим, что нормальное распределение полностью опреде ляется средней µ и стандартным отклонением. Поэтому све дения в табл. 2.1 — это не просто удачное представление дан ных.

МЕДИАНА И ПРОЦЕНТИЛИ И снова в путь! Обогатившись теоретическими познаниями, мы отправляемся на Юпитер. Здесь мы не только измеряем всех до одного юпитериан, но также подсчитываем среднее и стандарт ное отклонение роста для всей их совокупности. Оказывается средний рост юпитериан — 37,6 см, а его стандартное отклоне ние — 4,5 см. Можно заключить, что юпитериане очень похожи на марсиан, ведь близки оба параметра определяющие нормаль ное распределение — среднее и стандартное отклонение.

Однако если взглянуть на исходные данные по юпитерианам (рис. 2.ЗА), то обнаружится совершенно иная картина. На са мом деле типичный юпитерианин довольно приземист — око ло 35 см, то есть на добрых 5 см ниже марсианина. И только небольшая группа долговязых смещает значения стандартного отклонения и среднего вводя ученых в заблуждение.

Итак, рост произвольно выбранного юпитерианина вовсе не равновероятно может оказаться выше или ниже среднего, то есть распределение юпитериан по росту асимметрично. В такой си туации полагаться на среднее и стандартное отклонение нельзя.

На рис. 2.ЗБ изображено нормальное распределение для совокуп ности с теми же самыми значениями среднего и стандартного отклонения, что и на рис. 2.ЗА. Оно ничуть не похоже на распре деление юпитериан. Таким образом, доверившись среднему и стандартному отклонению, мы получим превратное представ КАК ОПИСАТЬ ДАННЫЕ Рис. 2.3. Если распределение асимметрично полагаться на среднее и стандартное от клонение нельзя. А. Распределение юпитериан по росту. Б. Нормальное распределение с теми же средним и стандартным отклонением, не смотря на тождественность пара метров, оно ничуть не похоже на реальное распределение юпитериан.

ление о совокупности, не подчиняющейся нормальному распре делению.

Для описания таких данных лучше подходит не среднее, а медиана. Медиана — это значение, которое делит распределе ние пополам половина значений больше медианы половина — меньше (точнее не больше). Из рис. 2.4А видно, что ровно по ловина юпитериан выше 36 см. Стало быть 36 см — это медиа на роста юпитериан.

Для характеристики разброса роста юпитериан найдем зна чения, не выше которых оказались 25 и 75% результатов измере 34 ГЛАВА А Медиана (50-й процентиль) Б 25-й процентиль 75-й процентиль 30 35 40 45 Рост, см Рис. 2.4. Для описания асимметричного распределения следует использовать медиану и процентили. Медиана — это значение, которое делит распределение пополам. А. Ме диана роста юпитериан — 36 см. Б. 25-й и 75-й процентили отсекают четверть самых низких и четверть самых высоких юпитериан 25-й процентиль ближе к медиане, чем 75-й — это говорит об асимметричности распределения.

КАК ОПИСАТЬ ДАННЫЕ ния. Эти величины называются 25-м и 75-м процентилями. Если медиана делит распределение пополам, то 25-й и 75-й процен тили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем). Для юпитериан, как видно из рис. 2.4Б, 25-й и 75-й процентили равны соответственно см и 40 см. Конечно, медиана и процентили, в отличие от сред него и стандартного отклонения, не дают полного описания рас пределения. Однако между 25 м и 75-м процентилями находит ся половина значений, – значит, мы можем судить, каков ростом средний юпитерианин. По положению медианы относительно 25-го и 75-го процентилей можно судить о том, насколько асим метрично распределение. И наконец, теперь мы примерно зна ем, кто на Юпитере считается высоким (выше 75-го проценти ля), а кто ростом не вышел (ниже 25-го процентиля).

Для описания распределения чаще всего применяют 25-й и 75-й процентили. Однако можно рассчитывать любые другие процентили. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.

Вычисление процентилей — хороший способ разобраться в том, насколько распределение близко к нормальному. Напом ним, что для нормального распределения 95% значений заклю чено в пределах двух стандартных отклонений от среднего и 68% — в пределах одного стандартного отклонения, медиана совпадает со средним. Соответствие между процентилями и числом стандартных отклонений от среднего таково (см. также рис. 2.5):

Процентили Отклонения от среднего µ – 2, 16 µ– µ µ+ µ + 97, Если соответствие между процентилями и отклонениями от среднего не слишком отличается от приведенного, то распреде ление близко к нормальному и его можно описать при помощи среднего и стандартного отклонения.

36 ГЛАВА Рис. 2.5. Нормальное распределение, соответствие между числом стандартных откло нений от среднего и процентилями.

Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, в частности рассматриваемые в гл. 2, 4 и 9, основаны на предположении что распределение близко к нормальному. Только в этом случае эти методы будут надежны. (Методы, не требующие нормальности распределе ния, изложены в гл. 10) ВЫБОРОЧНЫЕ ОЦЕНКИ До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения сред него, дисперсии и стандартного отклонения. На самом деле об следовать все объекты совокупности удается редко: обычно до вольствуются изучением выборки, полагая, что эта выборка от ражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выбор кой, мы, конечно, не узнаем точных значений среднего и стан КАК ОПИСАТЬ ДАННЫЕ дартного отклонения, но можем оценить их. Опенка среднего, вычисленная по выборке называется выборочным средним. Вы борочное среднее обозначают X и вычисляют по формуле:

X= n где n – объем выборки.

Оценка стандартного отклонения называется выборочным стан дартным отклонением (s) и определяется следующим образом:

s= n Эта формула отличается от формулы для стандартного от клонения по совокупности. Во-первых, среднее µ заменяется его выборочной оценкой — X. Во-вторых, в знаменателе из числа членов выборки вычитается единица. Строгое обоснова ние последнего требует основательной математической подго товки, поэтому ограничимся следующим объяснением. Разброс значений в пределах выборки никогда не бывает столь большим, как во всей совокупности, и деление не на n, а на n – 1 компенси рует возникающее занижение оценки стандартного отклонения.

Подытожим. Если известно, что выборка скорее всего при надлежит к совокупности с нормальным распределением, луч ше всего использовать выборочное среднее и выборочное стан дартное отклонение. Если есть основания полагать, что распре деление в совокупности отличается от нормального, следует ис пользовать медиану, 25-й и 75-й процентили.

НАСКОЛЬКО ТОЧНЫ ВЫБОРОЧНЫЕ ОЦЕНКИ Выборочное среднее и выборочное стандартное отклонение есть оценки среднего и стандартного отклонения для совокупности, вычисленные по случайной выборке. Понятно, что разные выбор ки дадут разные оценки. Для характеристики точности выбороч ных оценок используют стандартную ошибку. Стандартную ошиб ку можно подсчитать для любого показателя, но сейчас мы остановимся на стандартной ошибке среднего, — она позволяет 38 ГЛАВА Рис. 2.6. Три случайные выборки из одной совокупности дают три разных оценки сред него и стандартного отклонения.

оценить точность, с которой выборочное среднее характеризу ет значение среднего по всей совокупности.

На рис. 2.6А представлено уже знакомое нам распределение марсиан по росту. Мы уже знаем рост каждого марсианина. По смотрим, что получится, если оценивать средний рост по вы борке объемом, скажем, 10 марсиан.

Из 200 обитателей Марса наугад выберем 10 и пометим их черными кружками (рис. 2.6А). На рис. 2.6Б эта выборка изобра жена в виде, принятом в журнальных публикациях. Точка и два КАК ОПИСАТЬ ДАННЫЕ 30 35 40 45 Рис. 2.7. Такое распределение мы получим, выбрав 25 раз по 10 марсиан из совокупно сти представленной на рис 2 6А, и рассчитав среднее для каждой выборки (средние для трех выборок с рис. 2.6 показаны заполненными кружками). Если построить распpeделе ние средних для всех возможных выборок, оно окажется нормальным. Среднее этого распределения будет равно среднему той совокупности, из которой извлекаются вы борки. Стандартное отклонение этого распределения называется стандартной ошибкой среднего.

отрезка по бокам от нее изображают выборочное среднее (X = 41,5 см) и выборочное стандартное отклонение (s = 3,8 см). Эти значения близки, но не равны среднему по совокупности (µ = 40 см) и стандартному отклонению ( = 5 см).

Извлечем еще одну случайную выборку того же объема. Ре зультат показан на рис. 2.6В. На рис. 2.6А попавшие в эту вы борку марсиане изображены заштрихованными кружками. Вы борочное среднее (36 см) по-прежнему близко к среднему по совокупности, хотя и отличается от него;

что касается выбороч ного стандартного отклонения (5 см), то на этот раз оно совпало со стандартным отклонением по совокупности.

На рис. 2.6Г представлена третья выборка. Попавшие в нее марсиане на рис. 2.6А изображены кружками с точками. Сред нее и стандартное отклонение для этой выборки составляют со ответственно 40 и 5 см.

Теперь пора поставить добычу случайных выборок на про мышленную основу. Рассмотрим совокупность средних для каж дой из возможных выборок по 10 марсиан. Общее число таких выборок превышает 1016. Три из них мы уже обследовали. Сред ние по этим выборкам представлены на рис. 2.7 в виде заполнен ных кружков. Пустые кружки — это средние еще для 22 выборок.

Итак, теперь каждому выборочному среднему соответствует кружок, 40 ГЛАВА точно так же, как до сих пор кружки соответствовали отдельно му объекту.

Посмотрим на рис. 2.7. Набор из 25 выборочных средних имеет колоколообразное распределение похожее на нормальное.

Это не случайно. Можно доказать, что если переменная пред ставляет собой сумму большого числа независимых перемен ных, то ее распределение стремится к нормальному, какими бы ни были распределения переменных, образующих сумму. Так как выборочное среднее определяется именно такой суммой, его распределение стремится к нормальному, причем чем больше объем выборок, тем точнее приближение. (Если выборки при надлежат совокупности с нормальным распределением, распре деление выборочных средних будет нормальным независимо от объема выборок).

Поскольку распределение на рис. 2.7 нормальное, его можно описать с помощью среднего и стандартного отклонения.

Так как среднее значение для рассматриваемых 25 точек есть среднее величин, которые сами являются средними значения ми, обозначим его X X. Аналогично, стандартное отклонение обозначим s X. По формулам для среднего и стандартного откло нения находим X X = 40 см и s X = 1,6см.

Среднее выборочных средних X X оказалось равно среднему µ всей совокупности из 200 марсиан. Ничего неожиданного в этом нет. Действительно, если бы мы провели исследования всех возможных выборок, то каждый из 200 марсиан был бы выбран равное число раз. Итак, среднее выборочных средних совпадет со средним по совокупности.

Подобно тому, как стандартное отклонение исходной выбор КАК ОПИСАТЬ ДАННЫЕ ки из 10 марсиан s служит оценкой изменчивости роста марси ан, s X является оценкой изменчивости значений средних для вы борок по 10 марсиан в каждой. Таким образом, величина s X слу жит мерой точности, с которой выборочное среднее X является оценкой среднего по совокупности µ. Поэтому s X носит назва ние стандартной ошибки среднего.

Чем больше выборка, тем точнее оценка среднего и тем мень ше его стандартная ошибка. Чем больше изменчивость исход ной совокупности, тем больше изменчивость выборочных сред них, поэтому стандартная ошибка среднего возрастает с увели чением стандартного отклонения совокупности.

Истинная стандартная ошибка среднего по выборкам объе мом n, извлеченным из совокупности, имеющей стандартное отклонение, равна*:

n Собственно стандартная ошибка — это наилучшая оценка величины X по одной выборке:

s sX =, n где s — выборочное стандартное отклонение.

Так как возможные значения выборочного среднего стремятся к нормальному распределению, истинное среднее по совокуп ности примерно в 95% случаев лежит в пределах 2 стандартных ошибок выборочного среднего.

Как уже говорилось, распределение выборочных средних приближенно всегда следует нормальному распределению не зависимо от распределения совокупности, из которой извлече ны выборки. В этом и состоит суть утверждения, называемого центральной предельной теоремой. Эта теорема гласит следу ющее.

• Выборочные средние имеют приближенно нормальное рас пределение независимо от распределения исходной совокуп ности, из которой были извлечены выборки.

* Вывод этой формулы приведен в гл. 4.

42 ГЛАВА • Среднее значение всех возможных выборочных средних рав но среднему исходной совокупности.

• Стандартное отклонение всех возможных средних по выбор кам данного объема, называемое стандартной ошибкой сред него, зависит как от стандартного отклонения совокупнос ти, так и от объема выборки.

На рис. 2.8 показано, как связаны между собой выборочное среднее, выборочное стандартное отклонение и стандартная ошибка среднего и как они изменяются в зависимости от объе ма выборки*. По мере того как мы увеличиваем объем выбор ки, выборочное среднее X и стандартное отклонение s дают все более точные оценки среднего µ и стандартного отклонения по совокупности. Увеличение точности оценки среднего отра жается в уменьшении стандартной ошибки среднего X. На брав достаточное количество марсиан, можно сделать стандар тную ошибку среднего сколь угодно малой. В отличие от стан дартного отклонения стандартная ошибка среднего ничего не говорит о разбросе данных, — она лишь показывает точность выборочной оценки среднего.

Хотя разница между стандартным отклонением и стандарт ной ошибкой среднего совершенно очевидна, их часто путают.

Большинство исследователей приводят в публикациях значение стандартной ошибки среднего, которая заведомо меньше стан дартного отклонения. Авторам кажется, что в таком виде их дан ные внушают больше доверия. Может быть, так оно и есть, од нако беда в том, что стандартная ошибка среднего измеряет именно точность оценки среднего, но никак не разброс данных, который и интересен читателю. Мораль состоит в том, что, опи сывая совокупность, всегда нужно приводить значение стандар тного отклонения.

* Рис. 2.8 получился следующим образом. Из совокупности марсиан (рис.

2.1) взяли наугад двух марсиан. По этой выборке вычислили X, s и s X.

Потом опять же наугад выбрали еще одного марсианина и добавив его к выборке снова рассчитали эти показатели. Добавляя каждый раз по одно му случайно выбранному марсианину, объем выборки довели до 100. Если бы мы повторили эксперимент, очередность извлечения марсиан была бы иной, и рисунок выглядел бы немного иначе.

КАК ОПИСАТЬ ДАННЫЕ Рис. 2.8. С увеличением объема выборки возрастает точность оценки параметров распределения. Выборочное среднее X стремится к среднему в совокупности µ вы борочное стандартное отклонение s стремится к стандартному отклонению в сово купности, а стандартная ошибка среднего стремится к нулю.

Рассмотрим пример, позволяющий почувствовать различие между стандартным отклонением и стандартной ошибкой сред него, а также уяснить, почему не следует пренебрегать стандар тным отклонением. Положим, исследователь, обследовав выборку из 20 человек, пишет в статье, что средний сердечный выброс составлял 5,0 л/мин со стандартным отклонением 1 л/мин. Мы знаем, что 95% нормально распределенной совокупности попа дает в интервал среднее плюс–минус два стандартных отклоне 44 ГЛАВА ния. Тем самым, из статьи видно, что почти у всех обследованных сердечный индекс составил от 3 до 7 л/мин. Такие сведения весь ма полезны, их легко использовать во врачебной практике.

Увы, приведенный пример далек от реальности. Скорее ав тор укажет не стандартное отклонение, а стандартную ошибку среднего. Тогда из статьи вы узнаете, что «сердечный выброс составил 5,0 ± 0,22 л/мин». И если бы мы спутали стандартную ошибку среднего со стандартным отклонением, то пребывали бы в уверенности, что 95% совокупности заключено в интервал от 4,56 до 5,44 л/мин. На самом деле в этом интервале (с вероят ностью 95%) находится среднее значение сердечного выброса.

(В гл. 7 мы поговорим о доверительных интервалах более под робно). Впрочем, стандартное отклонение можно рассчитать самому — для этого нужно умножить стандартную ошибку сред него на квадратный корень из объема выборки (численности группы). Правда, для этого нужно знать, что же именно приво дит автор — стандартное отклонение или стандартную ошибку среднего.

ВЫВОДЫ Когда совокупность подчиняется нормальному распределению, она исчерпывающе описывается параметрами распределения — средним и стандартным отклонением. Когда же распределение сильно отличается от нормального, более информативны медиа на и процентили.

Так как наблюдать всю совокупность удается редко, мы оце ниваем параметры распределения по выборке, случайным об разом извлеченной из совокупности. Стандартная ошибка сред него служит мерой точности, с которой выборочное среднее яв ляется оценкой среднего по совокупности.

Эти величины полезны не только для описания совокупнос ти или выборки. Их можно также использовать для проверки статистических гипотез, в частности о различиях между груп пами.

Этому и будет посвящена следующая глава.

КАК ОПИСАТЬ ДАННЫЕ ЗАДАЧИ 2.1. Найдите среднее, стандартное отклонение, медиану, 25 й и 75-й процентили для следующей выборки 0;

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *