Как интерпретировать важность конкретной характеристики?

Question 1

Извините за очень специфичный вопрос. У меня есть набор данных генов, с помощью которого я использую машинное обучение для предсказания того, вызывает ли ген заболевание. Одна из характеристик, которую я имею, – это значение бета (которое является размером эффекта воздействия гена на заболевание), и я не уверен, как лучше интерпретировать и использовать эту характеристику.

Я конденсирую значения бета с уровня вариантов до уровня генов, так что у гена остается несколько значений бета, таких как:

Ген         Бета
ACE      -0.7, 0.1 ,0.6
NOS      0.2, 0.4, 0.5
BRCA     -0.1 ,0.1, 0.2

В данный момент я пытаюсь выбрать одно значение бета для каждого гена двумя способами: в одном случае я выбираю абсолютное значение для гена (игнорируя, было ли оно ранее отрицательным), а в другом случае я выбираю абсолютное значение и возвращаю предыдущие отрицательные числа обратно к отрицательным. Я пытаюсь сделать это, потому что для значений бета положительная или отрицательная направленность указывает на размер эффекта, который ген оказывает на заболевание, поэтому я думаю, что важно сохранить отрицательную информацию (насколько я понимаю).

Однако мне посоветовали использовать только абсолютные значения без сохранения отрицательного статуса, и я не уверен, есть ли способ узнать, какой из вариантов лучше с точки зрения машинного обучения. У меня также есть проблема в любом случае, когда моя модель оценивает эту характеристику как гораздо более важную, чем любую другую характеристику в моем наборе данных. Например, градиентный бустинг придает этому важность 0.01, тогда как следующая по важности характеристика имеет значение 0.001.

Итак, мой вопрос заключается в том, как лучше всего интерпретировать столь важную характеристику, как эта? Если она намного важнее, является ли это предвзятостью, и вероятно, связано ли это с моими собственными обработкой/предобработкой характеристики, или допустимо, что она просто очень важна? Возможно ли настроить мою модель так, чтобы переоценить важность этой конкретной характеристики? У меня есть биологическое образование, поэтому не уверен, что является нормальным или наименее предвзятым подходом.

Question 2

Вы можете использовать один из двух подходов:

Первый подход – несупервизированный:

Используйте PCA алгоритм для извлечения векторных признаков, лучше всего представляющих дисперсию набора данных. Алгоритм PCA извлекает новые признаки, каждый из которых является линейной комбинацией других признаков (независимых от метки), когда 1-й извлекаемый признак является наиболее важным, а последний – наименее важным. Затем вы можете получить веса каждого “Beta” значения на наиболее важном признаке. Вот пример этого:
https://stackoverflow.com/a/34692511/6677037

Другой подход – супервизированный:

Использование меток, которые следует использовать с осторожностью и не выбирать признаки на основе тестового набора. С помощью этих методов вы можете увидеть наиболее важные признаки, используя “Квадратхи-критерий”, “взаимную информацию” и т.д. Затем вы удаляете наименее важные признаки. Вот самый простой способ сделать это:
https://hub.packtpub.com/4-ways-implement-feature-selection-python-machine-learning/

Удачи.

Как интерпретировать важность конкретной характеристики?

Вопрос или проблема

Ответ или решение