Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?

Вопрос или проблема

Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты — я все еще нахожусь на стадии исследования.

Однако я не уверен, как лучше всего учесть год сделки по перепродаже, поскольку за этими годами наблюдаются четкие долгосрочные тенденции. В данный момент я просто оставляю это как признак, что, похоже, является допустимым подходом. Мне просто интересно, могут ли быть альтернативные подходы. Например, у меня также есть данные о движении цен в целом на ежеквартальной основе. Я предполагаю, что мог бы скорректировать каждую цену перепродажи в зависимости от этих тенденций и игнорировать год как признак. Имело бы это смысл?

Каковы другие подходы? (Опять же, я даже не уверен, является ли это проблемой.)

Я думаю, вы выявили два основных варианта:

  1. Моделировать ценовую тенденцию, т.е. сделать вашу модель адаптированной для захвата ценовой тенденции с течением времени.
  2. Очистить ваши [ценовые] данные так, чтобы цены выражались в “реальных терминах” (не включая ценовую тенденцию).

Вариант 2 подразумевает, что вы “дефлируете” стандартизированную цену (например, цену за квадратный метр). Таким образом, цена за квадратный метр в 2018, 2019 и 2020 годах будет “скорректирована” на уровень цен (например) 2017 года, чтобы все цены были “ценами 2017 года”. Вам нужна стандартизированная цена (например, за квадратный метр), потому что вам нужно контролировать возможные незафиксированные эффекты в составе ваших данных, например, когда средний дом, проданный в 2020 году, “больше”, чем средний дом в 2017 году. По сути, вам нужно убедиться, что “дефлированные” цены сравнимы. Это может быть проблемой, например, когда в рынке происходят изменения со временем. Вы можете представить, что готовность платить за “большие” дома со временем меняется, так что один квадратный метр “большого” дома становится со временем дороже. Поймать такие эффекты может быть сложно просто “дефлируя” (средние) цены за квадратный метр.

Вариант 1 может частично захватить вышеописанный эффект(ы). Рассмотрим случай линейной регрессии. Допустим, у вас есть два года (2019, 2020), и вы хотите “учитывать” инфляцию с течением времени. Ваша (упрощенная) базовая модель с ценой $p$ и $sqm$ в качестве независимой переменной будет выглядеть так:

$$ p = \beta_0 + \beta_1 sqm + u. $$

Теперь вы можете добавить “думми года” (=1, если год==2020):

$$ p = \beta_0 + \beta_1 sqm + \beta_2 t_{2020} + u. $$

Коэффициент $\beta_2$ захватывает средний эффект на $p$ в 2020 году по сравнению с 2019 годом. Это иногда называется “фиксированным эффектом”, так как переменная просто представляет собой “сдвиг” цен в 2020 году по сравнению с 2019 годом для всех уровней $sqm$.

Если вы считаете, что $sqm$ и “время” каким-то образом связаны, вы также можете добавить взаимодействия, например:

$$ p = \beta_0 + \beta_1 sqm + \beta_2 t_{2020} + \beta_3 sqm * t_{2020} + u. $$

В этой модели вы позволяете разный пересчет (в 2019 и 2020 годах) и разную наклонную для $sqm$ в обоих годах. Вместо взаимодействия “времени” и $sqm$ вы также можете добавить взаимодействие с “размерными дummies” (например, “малые” против “больших” домов).

По сути, вариант 1 дает вам больше гибкости, поскольку линейная регрессия позволяет “дефлировать” цены внутри модели. Обратите внимание, что линейная регрессия является параметрическим подходом, поэтому вам нужно найти правильную параметризацию модели (так же, как вам нужно найти правильную стратегию для дефляции цен, когда вы делаете это вне модели).

Когда вы используете регрессионные деревья, вам не нужно беспокоиться о функциональном представлении модели. Преимущество линейной регрессии заключается в том, что “временная дummи” принуждена соответствовать всем данным. В регрессионных деревьях эффект дummи менее заметен. Поэтому в этом случае “дефляция” данных вне модели может быть полезной.

Однако, когда вы работаете над прогнозами с низкой дисперсией, вам в конечном итоге нужно проверить, какой подход работает лучше всего на основе тестовых результатов.

Правка (20-12-30): Дummи

Предположим, у вас есть вектор ID:

  id
1  1
2  1
3  2
4  2
5  3
6  3

Думми-кодирование будет выглядеть так:

  id1 id2 id3
1   1   0   0
2   1   0   0
3   0   1   0
4   0   1   0
5   0   0   1
6   0   0   1

В линейной регрессии дummи обычно работают как “контрасты”, например эффект id2 по сравнению с id1 и id3 по сравнению с id1, так что вы включаете n-1 дummи.

Ответ или решение

Использование года перепродажи для прогнозирования цен на жилье

Прогнозирование цен на жилье представляет собой сложную задачу, которая требует глубокого анализа множества факторов, таких как тип, размер и местоположение недвижимости. Одним из ключевых компонентов, влияющих на цены, является год перепродажи, который может оказать значительное влияние на оценку стоимости. В этой статье мы рассмотрим, как правильно использовать год перепродажи, чтобы улучшить прогнозирование цен на жилье.

Подходы к учету года перепродажи

Существует несколько подходов к интеграции года перепродажи в модели прогнозирования цен на жилье:

  1. Моделирование ценовых трендов: Этот подход предполагает, что ваша модель будет включать механизмы, которые могут захватывать тренды изменения цен с течением времени. Например, вы можете использовать линейную регрессию, добавляя переменную, указывающую на год перепродажи (долговременный эффект), а также фиксированные эффекты для конкретных годов для более точного учета изменений в рыночных ценах.

    Формула может выглядеть следующим образом:

    [
    p = \beta_0 + \beta_1 \cdot sqm + \beta2 \cdot t{year} + u
    ]

    Здесь (t_{year}) принимает значение 1, если год соответствует заданному, и 0 в противном случае. Коэффициент (\beta_2) отразит средний эффект на цену в определенный год.

  2. Коррекция цен на "реальные цены": Этот метод позволяет "дефлировать" цены для учета инфляции и других экономических факторов. Например, вы можете установить базовый год (например, 2017 год) и скорректировать цены на квартиру за более поздние годы до уровня этого базового года. Это делается путем деления цен на индекс цен, что позволяет сделать их сопоставимыми.

    Например, если вам нужно преобразовать цены в 2019 и 2020 годах, вы можете использовать общий индекс, который учитывает квартальные изменения, чтобы скорректировать цены, тем самым выделяя только изменения, связанные с фактическими характеристиками самой квартиры.

  3. Добавление взаимодействий: Важно также учитывать, как год перепродажи может взаимодействовать с другими переменными, такими как размер квартиры. Вы можете создать переменные взаимодействия, например:

    [
    p = \beta_0 + \beta_1 \cdot sqm + \beta3 \cdot (sqm \cdot t{year}) + u
    ]

    Это позволяет вам захватывать динамику изменений на рынке, учитывая как общий тренд, так и специфику размера и типа жилья.

Проверка модели

Независимо от выбранного подхода, необходимо тестировать модель, чтобы определить, какой метод дает наименьшую погрешность и наиболее корректный прогноз цен. Для этого можно использовать методы кросс-валидации, где данные делятся на обучающую и тестовую выборки, чтобы проверить, как модель справляется с предсказанием незнакомых данных.

Заключение

При прогнозировании цен на жилье учитывание года перепродажи – это не просто дополнительный атрибут, а критически важный элемент, позволяющий лучше понимать ценовые тренды и их влияние. Используя подходы моделирования, коррекции цен на реальные значения и взаимодействия с другими переменными, вы можете создать более точные и надежные модели прогнозирования, которые позволят вам более корректно оценивать стоимость недвижимости на вторичном рынке.

Оцените материал
Добавить комментарий

Капча загружается...