Одна из основных проблем использования линейной регрессии — ненормальной распределения переменных. Выбросы сильно искажают картину. Для некоторых случаев можно пренебречь ими: ну, например, отбросить члена КПСС с дореволюционным стажем из выборки. К сожалению, так получается не всегда, поэтому мы можем преобразовать переменную для того, чтобы получаемые данные подчинялись закону нормального распределения.
У нас есть в ассортимента два наиболее распространенных снаряда:

  • корень квадратный
  • логарифмирование

Корень квадратный мне не нравится: он не меняет характер распределения, а только сужает асимметрию до адекватных размеров, и мы закрываем глаза на выбросы, которые как бы уже и не выбросы
логарифмирование меняет характер распределения. Я сегодня сделал логарифмирование в программе R, вот собственно и хочу похвастаться
Исходные данные

После логарифмирования

Чувствуется разница?
И собственно все элементарно
i = log10(Y$переменная)
l = cbind(Y, i)
Для аналитиков: я не претендую на что-то гениальное. ничуть. Это пост баловство, иногда хочется поиграться с диаграммками. 


Источник : edwvb.blogspot.com

Похожая запись