Вопрос или проблема
Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data)
. Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует много наборов данных (4). Если первый шаг — это предварительная обработка данных, то какой набор данных следует обрабатывать первым? Я использую язык R.
Спасибо.
Я предполагаю, что это данные для соревнования?
В общем, начните с предыдущих данных и данных истории информации, которые, похоже, предоставляют дополнительную информацию для наблюдений в обучающих и тестовых наборах данных. Вам, вероятно, предоставлены идентификаторы для поиска, которые позволяют связывать любую конкретную строку этих дополнительных наборов данных с набором данных по обучению/тестированию.
Большинство людей агрегируют эти дополнительные переменные так, чтобы одна строка соответствовала одному уникальному идентификатору поиска (т.е. агрегируют эти наборы данных по идентификатору), используя различные статистические показатели: средние значения, максимумы, минимумы, дисперсии, куртозисы, перцентили (например, медиану) и т.д. Я даже видел, как люди прикрепляют целевую переменную из обучающего набора данных к “дополнительным” наборам данных, чтобы затем запускать регрессии/классификаторы на этих наборах данных для получения дополнительных признаков, которые обеспечивают лучшие агрегирования. Ещё одно предложение: информация о прошлом и предыдущих данных звучит так, будто в них есть временной элемент. Возможно, стоит обратить внимание на использование более свежих данных, возможно, добавив такие признаки, как “среднее значение x за последние k временных периодов” или “медиана y за n самых последних кредитов” и т.д. Я не знаю, какие данные в наборах, но это всего лишь предложение.
После того как это будет сделано, просто объедините эти агрегированные сводные статистики с наборами данных для обучения/тестирования по столбцу идентификатора = id. В R это довольно просто сделать с помощью tidyverse и left_join/right_join, например.
Надеюсь, это ответит на ваш вопрос.
Ответ или решение
Для вашей задачи с четырьмя наборами данных (train_data, test_data, previous_data и information_history_data) первоочередным шагом будет предобработка данных. Давайте разберем последовательность действий и шаги, которые следует предпринять.
1. Анализ набора данных
Сначала ознакомьтесь с содержимым всех четырех наборов данных. Проверьте, какие переменные (колонки) присутствуют в каждом наборе и какую роль они играют в контексте вашей задачи. Обратите внимание на наличие идентификаторов (lookup ids), которые позволят связать строки между наборами данных.
2. Предобработка данных
Предобработка данных, как правило, включает несколько этапов:
Предобработка предыдущих данных (previous_data) и информации из истории (information_history_data)
-
Агрегация: Обычно эти наборы данных содержат дополнительную информацию о пользователях. Выполните агрегацию данных по уникальным идентификаторам, чтобы сократить количество строк, но сохранить нужную информацию. Какая именно агрегация будет разбирается в зависимости от ваших данных, но можно использовать следующие статистики:
- Средние значения
- Максимумы и минимумы
- Дисперсия и другие моменты распределения (куртозис, эксцесс и т.д.)
- Перцентильные значения (например, медиану)
-
Создание новых признаков: Исходя из особенностей ваших данных, создайте новые переменные, которые могут быть важны для предсказания. Например, использование исторических данных о предшествующих кредитах для формирования признаков типа "среднее количество кредитов за последние N периодов", "максимальный кредит за последний год", и так далее. Это может помочь вам уловить временные зависимости.
Объединение данных
После предобработки и агрегации сведите свои агрегированные данные с основными наборами данных (train_data и test_data) по идентификатору. В R это можно сделать с помощью функций из библиотеки dplyr
, таких как left_join
или right_join
.
3. Проверка и анализ полученных данных
После объединения данных проверьте, как новые признаки взаимодействуют с вашим целевым значением (рейтинг на кредит). Выполните визуализацию и анализ корреляции, чтобы оценить, какие из новых признаков имеют наибольшее влияние на предсказание целевой переменной.
4. Моделирование
С учетом всех необходимых предобработок и созданных признаков, можно переходить к моделированию. Попробуйте использовать различные алгоритмы, такие как линейные модели, деревья решений, градиентный бустинг и другие, чтобы найти подходящее решение для вашей задачи.
5. Оценка модели
После построения модели оцените ее производительность на тестовом наборе данных. Используйте метрики, такие как RMSE или MAE, в зависимости от ваших целей.
Следуйте этим шагам, и вы получите структурированный подход к вашей задаче, что позволит вам с использованием данных сделать корректные предсказания рейтинга кредита для пользователей. Удачи!