источники данных о населении (по учебнегу):
- перепись
- текущий учот
- выборочные обследования и
- другое
дык, вот другое может заклевать троицу:
Беспрецедентный охват и точность метаданных сотовой сети в прошлые годы учёные использовали для вычисления вспомогательных индикаторов уровня бедности, неграмотности, оценки численности населения, миграции и распространения вирусных эпидемий. На индивидуальном уровне метаданные сотовой сети помогают предсказать социально-экономический статус человека, уровень дохода, его демографические характеристики и тип личности. Теперь дошло дело и до статуса занятости.
по ссылке [ другое ] статейка про занятость, но уже был доклад про миграцию в Башкортостане на кон-фе в вышке (в прошлом году)
оригинал (англ)
оригинал (англ)
2 comments:
Эти темы связанные с machine learning и прочим bigdata имеют одну большую проблему - у них нет цели собирать информацию о населении в целом, целью является повышение прибыли. Соответственно, возникает обратная связь усиливающая отклонение от репрезентативности. Причем как в связи с тем что ресурсы на сбор новых данных выделяются в соответствии с отдачей, так и дополнительно стоимость услуг варьируется.
Вот они сегодня построили модель предсказывающую безработицу (в целом), завтра по этой модели те же компании просто вычеркнут отдельную малоприбыльную часть из целей (всобачат им запретительный тариф) и модель построенная на нынешних данных уже будет работать хуже. А уж с вашей точки зрения она ещё и станет менее охватывающей население в целом и поэтому менее полезной.
Да и даже если этого не случается у них всё равно не слишком предсказуемый срок жизни. Скажем, у гугла был проект пытающийся по поискам ключевых слов на тему flu отлавливать начало эпидемии. Даже пару лет хорошо видно как модель видела начало болезни. Но в некоторые годы не видела, а в некоторые видела того чего нет. В общем, традиционный эпидемеологический surveillance эта штука не заменяет.
Технология, конечно, кульная.
ok, бум держацо скреп 1-3 :)
Post a Comment