Ээээ, ну, как же - это то самое что вы собираетесь изучать делая выборку. Скажем, если вы хотите узнать процент аудиторий вашего университета имеющий проектор (допустим аудиторий 200), то вот весь набор этих аудиторий и будет популяцией аудиторий. Из них вы произведете выборку (скажем 65 аудиторий). Среднее число рядов в этой выборке +-10% будет оценивать настоящее среднее по всем 200 аудиториям. Судя по числам, кстати, речь идет о простой случайной выборке. Если дизайн был не случайный надо будет ещё домножить на дизайн эффект. Ну и они исходят из консервативного сценария что пропорция может оказаться 50%. Если вы уверены что их больше 90% (или меньше 10%) то достаточно 132 из 200.
Популяцию всегда можно определить однозначно (хотя уже точный её размер можно не знать, впрочем, в больших популяциях этот размер уже менее важен - там можно считать их бесконечными). Потому что популяция - это то, что исследуешь и о чем хочется сделать вывод. Разумеется, выборку часто производят из так называемой sampling frame - того самого доступного. Сходство этой рамки с самой популяцией и ограничения связанные с отличиями между ними - это к тому насколько вывод обобщаем на популяцию.
исследуется обычно нечто неведомое, а выборка щетаецо репрезентативной при б-м совпадении по полу и возрасту :( + обычна противоположная задача: 1. взять выборку, 2. пащетать население
Нечто неведомое исследуется о какой-то понятной группе - или о ветеранах или о всём наборе подшипников производимых таким-то заводом. И это неведомое является какой-то характеристикой вполне понятной группы. В конце-концов, вам ведь нужно знать совпадение по полу и возрасту в группе которую вы исследуете, значит у вас должны быть какие-то общие представления об этой группе. Репрезентативной выборка является именно по отношению к конкретной популяции (к другой популяции она репрезентативной может и не быть). С точки зрения статистики же выборка не считается репрезентативной при более-менее совпадении по полу и возрасту, репрезентативной она будет если вероятность отбора по любому критерию была предсказуема и ненулевая. Соответственно, нужно мотивировать почему sampling frame более-менее соответствует интересуемой популяции, после чего мотивируется что процедура сбора по этой sampling frame нормально охватит разные части этого frame, а уже когда по собранным данным идет проверка по нескольким параметрам - это просто чтобы как-то понять что не было откровенного факапа при сборе данных. Я, правда, сам в основном в лабораторных условиях работаю, но эпидемеологических исследований насмотрелся и даже слегка поучаствовал. Да и социологов местных немного видел. Здесь все-таки принято сначала объяснить кого собираешься исследовать. Скажем, "пенсионеров". Дальше объясняется из какого ресурса можно более-менее охватить этих пенсионеров (к примеру, база данных Medicare) список исключений (по здоровью, часто переезжающих (в случае longitudinal просто слишком тяжело логистику обеспечить таким) и таким образом получается sampling frame. Из которого делается выборка. В общем, неведомым должен являться исследуемый параметр какой-то популяции. Сама популяция должна быть понятна хотя-бы в общем, sampling frame должен быть более-менее отражающим эту популяцию. А последняя проверка когда выборка оказывается более менее схожей по полу с интересующей популяцией - это небольшая проверка на тему не было ли откровенных факапов.
Считать население - это вы наверное о ваших терминах вроде популяционная статистика и т.п. (я в них не разбираюсь поэтому если напутал уж извините). Популяция при этом остается популяцией и при выборке из этой популяции. Выборка не может быть репрезентативна без привязки к популяции. Потому что репрезентативность её утверждается по отношению к этой самой популяции.
Для примера популяция ВИЧ+, о ней предположительно известно, что она наблюдаецо частично через тестирование, которое тоже не совсем формализовано задача: пащитать ненаблюдаемую часть или показать, что её (практически) нет
Если вы пытаетесь оценить число больных ВИЧ (к примеру в США), то популяцией является население США, а prevalence больных - это одна из характеристик этой популяции. Это с точки зрения того что называется популяцией в приведенной по ссылке терминологии. В этой задаче число больных ВИЧ не является популяцией, а являются характеристикой популяции "население США". Вот если вы хотите изучать какое-то лекарство от ВИЧ, то вам, конечно, нужно отбирать только среди больных и соответственно они будут популяцией. В таких случаях, разумеется, приходится признавать что доступна только sampling frame - список тех о ком мы знаем что они больны и кого можем набрать для изучения (и вполне возможно что лекарство проверенное на этой подгруппе больных не очень хорошо обобщится на на всю популяцию больных). Если есть подозрение что sampling frame сильно отличается от общей популяции нужно об этом рассказать в дискуссии.
В принципе, конечно, бывают задачи когда нужно именно оценить размер популяции, скажем, хочется узнать сколько рыб определенного вида плавает в таком то озере: ловят в разных частях озера их сколько-то, вешают бирочку, выпускают и через недельку ловят новых. После чего считают какая пропорция новопойманых имеет эту бирочку. Ну, там дальше несколько допущений что их не поумирало и не было съедено слишком много и в конце-концов оценка размера популяции. Но я не думаю что вы часто используете подобные методы при опросах. Обычно всё-же survey methods опираются на более-менее оцененную переписью или ещё какой-то базой популяцию. В любом случае приведенная вами ссылка касается класса задач в которых приблизительный размер популяции понятен.
Если вы пытаетесь оценить число больных ВИЧ (к примеру в США), то популяцией является население США, а prevalence больных - это одна из характеристик этой популяции. Это с точки зрения того что называется популяцией в приведенной по ссылке терминологии.
ну, да вопрос терминологии вместо облехчения — лишний гемор рой
11 comments:
Ээээ, ну, как же - это то самое что вы собираетесь изучать делая выборку. Скажем, если вы хотите узнать процент аудиторий вашего университета имеющий проектор (допустим аудиторий 200), то вот весь набор этих аудиторий и будет популяцией аудиторий. Из них вы произведете выборку (скажем 65 аудиторий). Среднее число рядов в этой выборке +-10% будет оценивать настоящее среднее по всем 200 аудиториям.
Судя по числам, кстати, речь идет о простой случайной выборке. Если дизайн был не случайный надо будет ещё домножить на дизайн эффект. Ну и они исходят из консервативного сценария что пропорция может оказаться 50%. Если вы уверены что их больше 90% (или меньше 10%) то достаточно 132 из 200.
По жизни, как правило, популяция определена существенно менее однозначно :(
а выбырка дклается из доступного
Популяцию всегда можно определить однозначно (хотя уже точный её размер можно не знать, впрочем, в больших популяциях этот размер уже менее важен - там можно считать их бесконечными). Потому что популяция - это то, что исследуешь и о чем хочется сделать вывод.
Разумеется, выборку часто производят из так называемой sampling frame - того самого доступного. Сходство этой рамки с самой популяцией и ограничения связанные с отличиями между ними - это к тому насколько вывод обобщаем на популяцию.
исследуется обычно нечто неведомое, а выборка щетаецо репрезентативной при б-м совпадении по полу и возрасту :(
+ обычна противоположная задача: 1. взять выборку, 2. пащетать население
Нечто неведомое исследуется о какой-то понятной группе - или о ветеранах или о всём наборе подшипников производимых таким-то заводом. И это неведомое является какой-то характеристикой вполне понятной группы. В конце-концов, вам ведь нужно знать совпадение по полу и возрасту в группе которую вы исследуете, значит у вас должны быть какие-то общие представления об этой группе. Репрезентативной выборка является именно по отношению к конкретной популяции (к другой популяции она репрезентативной может и не быть).
С точки зрения статистики же выборка не считается репрезентативной при более-менее совпадении по полу и возрасту, репрезентативной она будет если вероятность отбора по любому критерию была предсказуема и ненулевая. Соответственно, нужно мотивировать почему sampling frame более-менее соответствует интересуемой популяции, после чего мотивируется что процедура сбора по этой sampling frame нормально охватит разные части этого frame, а уже когда по собранным данным идет проверка по нескольким параметрам - это просто чтобы как-то понять что не было откровенного факапа при сборе данных.
Я, правда, сам в основном в лабораторных условиях работаю, но эпидемеологических исследований насмотрелся и даже слегка поучаствовал. Да и социологов местных немного видел. Здесь все-таки принято сначала объяснить кого собираешься исследовать. Скажем, "пенсионеров". Дальше объясняется из какого ресурса можно более-менее охватить этих пенсионеров (к примеру, база данных Medicare) список исключений (по здоровью, часто переезжающих (в случае longitudinal просто слишком тяжело логистику обеспечить таким) и таким образом получается sampling frame. Из которого делается выборка.
В общем, неведомым должен являться исследуемый параметр какой-то популяции. Сама популяция должна быть понятна хотя-бы в общем, sampling frame должен быть более-менее отражающим эту популяцию. А последняя проверка когда выборка оказывается более менее схожей по полу с интересующей популяцией - это небольшая проверка на тему не было ли откровенных факапов.
Считать население - это вы наверное о ваших терминах вроде популяционная статистика и т.п. (я в них не разбираюсь поэтому если напутал уж извините). Популяция при этом остается популяцией и при выборке из этой популяции. Выборка не может быть репрезентативна без привязки к популяции. Потому что репрезентативность её утверждается по отношению к этой самой популяции.
Для примера популяция ВИЧ+, о ней предположительно известно, что она наблюдаецо частично через тестирование, которое тоже не совсем формализовано
задача: пащитать ненаблюдаемую часть или показать, что её (практически) нет
Если вы пытаетесь оценить число больных ВИЧ (к примеру в США), то популяцией является население США, а prevalence больных - это одна из характеристик этой популяции. Это с точки зрения того что называется популяцией в приведенной по ссылке терминологии. В этой задаче число больных ВИЧ не является популяцией, а являются характеристикой популяции "население США".
Вот если вы хотите изучать какое-то лекарство от ВИЧ, то вам, конечно, нужно отбирать только среди больных и соответственно они будут популяцией. В таких случаях, разумеется, приходится признавать что доступна только sampling frame - список тех о ком мы знаем что они больны и кого можем набрать для изучения (и вполне возможно что лекарство проверенное на этой подгруппе больных не очень хорошо обобщится на на всю популяцию больных). Если есть подозрение что sampling frame сильно отличается от общей популяции нужно об этом рассказать в дискуссии.
В принципе, конечно, бывают задачи когда нужно именно оценить размер популяции, скажем, хочется узнать сколько рыб определенного вида плавает в таком то озере: ловят в разных частях озера их сколько-то, вешают бирочку, выпускают и через недельку ловят новых. После чего считают какая пропорция новопойманых имеет эту бирочку. Ну, там дальше несколько допущений что их не поумирало и не было съедено слишком много и в конце-концов оценка размера популяции.
Но я не думаю что вы часто используете подобные методы при опросах. Обычно всё-же survey methods опираются на более-менее оцененную переписью или ещё какой-то базой популяцию. В любом случае приведенная вами ссылка касается класса задач в которых приблизительный размер популяции понятен.
Если вы пытаетесь оценить число больных ВИЧ (к примеру в США), то популяцией является население США, а prevalence больных - это одна из характеристик этой популяции. Это с точки зрения того что называется популяцией в приведенной по ссылке терминологии.
ну, да вопрос терминологии
вместо облехчения — лишний гемор рой
https://www.facebook.com/zibau/posts/1156086637831573
Post a Comment