Поиск предсказаний из 4 наборов данных

Вопрос или проблема

Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует много наборов данных (4). Если первый шаг — это предварительная обработка данных, то какой набор данных следует обрабатывать первым? Я использую язык R.

Спасибо.

Я предполагаю, что это данные для соревнования?

В общем, начните с предыдущих данных и данных истории информации, которые, похоже, предоставляют дополнительную информацию для наблюдений в обучающих и тестовых наборах данных. Вам, вероятно, предоставлены идентификаторы для поиска, которые позволяют связывать любую конкретную строку этих дополнительных наборов данных с набором данных по обучению/тестированию.

Большинство людей агрегируют эти дополнительные переменные так, чтобы одна строка соответствовала одному уникальному идентификатору поиска (т.е. агрегируют эти наборы данных по идентификатору), используя различные статистические показатели: средние значения, максимумы, минимумы, дисперсии, куртозисы, перцентили (например, медиану) и т.д. Я даже видел, как люди прикрепляют целевую переменную из обучающего набора данных к “дополнительным” наборам данных, чтобы затем запускать регрессии/классификаторы на этих наборах данных для получения дополнительных признаков, которые обеспечивают лучшие агрегирования. Ещё одно предложение: информация о прошлом и предыдущих данных звучит так, будто в них есть временной элемент. Возможно, стоит обратить внимание на использование более свежих данных, возможно, добавив такие признаки, как “среднее значение x за последние k временных периодов” или “медиана y за n самых последних кредитов” и т.д. Я не знаю, какие данные в наборах, но это всего лишь предложение.

После того как это будет сделано, просто объедините эти агрегированные сводные статистики с наборами данных для обучения/тестирования по столбцу идентификатора = id. В R это довольно просто сделать с помощью tidyverse и left_join/right_join, например.

Надеюсь, это ответит на ваш вопрос.

Ответ или решение

Для вашей задачи с четырьмя наборами данных (train_data, test_data, previous_data и information_history_data) первоочередным шагом будет предобработка данных. Давайте разберем последовательность действий и шаги, которые следует предпринять.

1. Анализ набора данных

Сначала ознакомьтесь с содержимым всех четырех наборов данных. Проверьте, какие переменные (колонки) присутствуют в каждом наборе и какую роль они играют в контексте вашей задачи. Обратите внимание на наличие идентификаторов (lookup ids), которые позволят связать строки между наборами данных.

2. Предобработка данных

Предобработка данных, как правило, включает несколько этапов:

Предобработка предыдущих данных (previous_data) и информации из истории (information_history_data)

  • Агрегация: Обычно эти наборы данных содержат дополнительную информацию о пользователях. Выполните агрегацию данных по уникальным идентификаторам, чтобы сократить количество строк, но сохранить нужную информацию. Какая именно агрегация будет разбирается в зависимости от ваших данных, но можно использовать следующие статистики:

    • Средние значения
    • Максимумы и минимумы
    • Дисперсия и другие моменты распределения (куртозис, эксцесс и т.д.)
    • Перцентильные значения (например, медиану)
  • Создание новых признаков: Исходя из особенностей ваших данных, создайте новые переменные, которые могут быть важны для предсказания. Например, использование исторических данных о предшествующих кредитах для формирования признаков типа "среднее количество кредитов за последние N периодов", "максимальный кредит за последний год", и так далее. Это может помочь вам уловить временные зависимости.

Объединение данных

После предобработки и агрегации сведите свои агрегированные данные с основными наборами данных (train_data и test_data) по идентификатору. В R это можно сделать с помощью функций из библиотеки dplyr, таких как left_join или right_join.

3. Проверка и анализ полученных данных

После объединения данных проверьте, как новые признаки взаимодействуют с вашим целевым значением (рейтинг на кредит). Выполните визуализацию и анализ корреляции, чтобы оценить, какие из новых признаков имеют наибольшее влияние на предсказание целевой переменной.

4. Моделирование

С учетом всех необходимых предобработок и созданных признаков, можно переходить к моделированию. Попробуйте использовать различные алгоритмы, такие как линейные модели, деревья решений, градиентный бустинг и другие, чтобы найти подходящее решение для вашей задачи.

5. Оценка модели

После построения модели оцените ее производительность на тестовом наборе данных. Используйте метрики, такие как RMSE или MAE, в зависимости от ваших целей.

Следуйте этим шагам, и вы получите структурированный подход к вашей задаче, что позволит вам с использованием данных сделать корректные предсказания рейтинга кредита для пользователей. Удачи!

Оцените материал
Добавить комментарий

Капча загружается...