Создание RiskScore на числовых данных

Question 1

Я работаю над созданием оценки риска на основе данных, где у меня есть переменные – сумма инвестиций, прибыль, возраст аккаунта в днях, общее количество торговых транзакций, прибыль на транзакцию и инвестиции на транзакцию. В основном, я хочу разработать метод для расчета оценки риска, где прибыль человека больше (в большинстве случаев он выигрывает). Здесь оценка должна быть выше, чтобы я мог классифицировать клиентов как клиенты с Высоким риском (в основном выигрыши и получение большой прибыли), Средним риском и Низким риском (всегда несет убытки).

По сути, моя проблема заключается в том, чтобы присвоить каждой клиенту оценку риска, чем выше оценка, тем рискованней клиент. Как только эта оценка будет получена, мы будем сегментировать клиентов на три класса.

Ниже представлены переменные, которые я в данный момент использую…

|Переменная|               Определение|
|username|               UserId для идентификации записей|
|Total_Freq_transaction| Общее количество сделанных сделок|
|Total_Freq_win|         Общее количество выигранных сделок|
|Account_age_days|       Дата активации аккаунта - Дата последней сделки |
|Invest_Amount|          Общая сумма, инвестированная в сделку|
|total_profit|           Прибыль, полученная от сделки (сумма выплаты - сумма инвестиции)|
|Trade_per_day|          Общее количество сделок за день / возраст аккаунта|
|Win_prob%|              Вероятность выигрыша от общего количества сделок|

Буду признателен за любую помощь.

Question 2

Существуют традиционные способы создания карт оценки риска с использованием методов линейной регрессии. Это целая отдельная тема. Хорошая книга для начинающих, чтобы углубленно изучить это, будет эта.

Вы также можете рассмотреть это как задачу классификации на три класса, если у вас есть разметка данных для этого. Или посмотрите на это как на задачу бинарной классификации и создайте три группы на основе вероятностей классов, которые предоставляет классификатор.

Question 3

Поскольку ваша вероятность выигрыша (Win_prob%) является непрерывной числовой переменной результата, это задача регрессии с контролем. Для этого существует множество методов, как линейных, так и нелинейных (особенно смотрите scikit-learn: http://scikit-learn.org/stable/supervised_learning.html). Какой из этих алгоритмов будет для вас лучшим, зависит от ваших данных. Вероятно, вам нужно будет попробовать несколько алгоритмов и посмотреть, какой из них дает наилучшие результаты. Перекрестная проверка ( http://scikit-learn.org/stable/modules/cross_validation.html ), вероятно, будет лучшим способом определить это.

Вы также можете попробовать нейронные сети, используя другие библиотеки, например, https://www.tensorflow.org/tutorials/keras/basic_regression или https://www.kaggle.com/xgdbigdata/keras-regression-tutorial#.

Как только вы предскажете вероятность выигрыша, ее можно сегментировать на низкий, средний и высокий риск, используя любые выбранные критерии.

Надеюсь, это поможет.

Question 4

Поскольку ваша вероятность выигрыша не является окончательным решающим фактором в том, является ли пользователь высоким или низким риском, поскольку у него может быть очень высокая вероятность выигрыша, но низкие прибыли. Что на самом деле делает их пользователем со средним или низким риском. И поскольку у вас нет разметки классов или какого-либо окончательного показателя риска, это может быть сформулировано как задача неконтролируемого обучения.

Просто кластеризуйте пользователей на три группы и проанализируйте вывод, чтобы увидеть, является ли он интуитивно понятным. Чистите его немного, маркируйте и используйте это для построения будущих моделей классификации с контролем.

Создание RiskScore на числовых данных

Вопрос или проблема

Ответ или решение

1. Понимание переменных

2. Оценка и анализ рисков

3. Методы создания рискового счёта

Линейная регрессия

Классификация

Нейронные сети

4. Кластеризация как альтернативный метод

5. Заключение