Data Science
Как интерпретировать важность конкретной характеристики?
00
Вопрос или проблема Извините за очень специфичный вопрос. У меня есть набор данных генов, с помощью которого я использую машинное обучение для предсказания того, вызывает ли ген заболевание. Одна из характеристик, которую я имею, –
Data Science
Как мы можем сократить нашу анкету, чтобы задавать только самые информативные вопросы в каждом пункте?
00
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
МЛ-подход для получения списка наблюдений с похожими признаками (дискретные + непрерывные)
00
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Как выбрать признаки для моделей машинного обучения с сотнями переменных в конкурсах Kaggle?
00
Вопрос или проблема В настоящее время я участвую в конкурсе на Kaggle, и мой набор данных содержит около 100 переменных. Мне интересно, как другие обычно подходят к выбору признаков, когда у них так много переменных, особенно если у них нет экспертных знаний в данной области.
Data Science
Как выполнить отбор признаков в наборе данных с категориальными и числовыми признаками?
00
Вопрос или проблема Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность
Data Science
Правило хорошего числа признаков при работе с группированными данными
00
Вопрос или проблема У меня есть задача классификации на клинических данных, где у каждого пациента есть несколько образцов. Таким образом, образцы, относящиеся к одному пациенту, в какой-то степени зависимы друг от друга. Я знаю, что невозможно заранее
Data Science
Добавление признаков с высоким p-значением и низким R-квадратом в линейную регрессию для улучшения результата.
00
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
как проверить, имеют ли метки реальные зависимости от признаков?
00
Вопрос или проблема Я пытаюсь обучить модель LSTM (многие ко одному) с входными мультивариантными временными рядами и категориальным выходом. После достаточно долгого обучения полученная модель все еще имеет низкую точность и высокую потерю на валидационных данных.
Data Science
Методы перебора признаков и кросс-валидация
00
Вопрос или проблема Существует существующий балл, состоящий из 10 параметров; каждый параметр имеет равный вес, и общий балл определяется путем суммирования баллов для каждого параметра. Я хочу попытаться уменьшить число параметров в этом балле, но сохранить их равный вес.
Data Science
Определите, как каждый элемент в векторе влияет на косинусное сходство при сравнении с другим вектором.
00
Вопрос или проблема У меня есть вектор, который представляет мой объект и выполняет задачу вычисления, какой объект похож на другой объект, используя косинусное сходство. Чтобы создать этот вектор, я объединил множество характеристик, которые могут представлять уникальный объект.
Data Science
Глубокий выбор признаков, специфичных для кластеров
00
Вопрос или проблема Как указано в заголовке, мне интересно, существует ли работа по достижению отбора признаков на основе кластера, к которому принадлежит точка данных (например, каждый кластер имеет свой набор выбранных признаков).
Data Science
Как обрабатывать переменное количество значений признаков (1:многие) без one-hot кодирования
00
Вопрос или проблема Я использую Catboost, и одно из замечаний в руководстве заключается в том, что сказано не производить предварительную обработку с помощью one-hot кодирования. В моих данных имеется единичная цель на строку, однако признак может иметь
Data Science
Статическая ML модель или временной ряд? Как моделировать/предсказывать бинарную целевую переменную, когда у меня есть временные характеристики, но большинство признаков постоянны?
00
Вопрос или проблема Я работаю с реальными данными пациентов. У меня есть набор данных с информацией о 10 миллионах пациентов, собранный за разный период времени (от 5 до 20 лет). Что я предсказываю, так это бинарный риск (или, возможно, вероятность этого
Data Science
Выбор признаков на агрегированных целевых данных
00
Вопрос или проблема У меня есть вопрос о выборе признаков в наборе данных, где целевая переменная агрегируется по сумме различных данных. Я хочу предсказать количество продаж в зависимости от различных признаков, таких как: неделя цена за единицу страна
Data Science
Какие методы выбора признаков для обработки естественного языка это представляет?
00
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Автоматизированный выбор признаков – Лучшие практики для предотвращения утечки данных?
00
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
scikit-learn OMP ошибка памяти
00
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.
Data Science
Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?
00
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Сколько признаков — это слишком много при использовании методов выделения признаков?
00
Вопрос или проблема Теперь, конечно, не существует идеального числа, так как каждая задача уникальна, но я несколько дней искал в Google, ChatGPT и на YouTube ответ на этот вопрос и постоянно получал противоречивые отзывы. Некоторые источники говорят
Data Science
Я пытаюсь построить модель логистической регрессии.
00
Вопрос или проблема У меня есть данные временного ряда о том, как семья тратит деньги на разные продукты. Каждый продукт отнесён к категории (это может быть путь категории из двух уровней), например, (Еда > Курица) или (Личные принадлежности > Макияж).