Data Science
Как передавать входные данные в модели глубокого обучения для задачи ответа на множественный выбор?
00
Вопрос или проблема В настоящее время я работаю над системой ответов на вопросы с множественным выбором. Обучающая выборка состоит из вопроса, ответа и 4 вариантов, и мне нужно предсказать правильный ответ среди 4 вариантов. Иногда есть и один абзац, например: 1.
Data Science
Симуляция данных с использованием make_classification в Python
00
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция
Data Science
Предварительная обработка многомерных данных
00
Вопрос или проблема Я пытаюсь понять, как работает предобработка многомерных данных, но у меня есть несколько вопросов. Например, я могу выполнять сглаживание данных, преобразование (бокс-кокс, дифференцирование), удаление шума в одномерных данных (для
Data Science
Случайный лес всегда прогнозирует класс большинства
00
Вопрос или проблема Я предсказываю исход болезни, используя биологические данные (метаболиты плюс ковариаты: возраст, пол и ИМТ). Исход является бинарной переменной и умеренно несбалансирован (~12% положительных случаев). У меня относительно большое число
Data Science
Бинарная классификация текста с помощью SpaCy
00
Вопрос или проблема У меня есть набор данных из двух папок. Одна из них содержит документы (текст, PDF), связанные с личной информацией (например, имя, электронная почта, адрес и т. д.), другая содержит неперсонализированную информацию.
Data Science
Масштабирование и нессимметричные преобразования признаков для классификации
00
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Нужно ли использовать AUPRC для отчетности о результатах классификации на несбалансированном наборе данных, если модель была обучена с использованием увеличения выборки и кросс-валидации?
00
Вопрос или проблема Я работаю над задачей бинарной классификации, в которой в датасете содержится около 5% положительных классов. Я разделил датасет на 70% для обучения и 30% для тестирования. Я использовал тестовые данные только один раз для оценки производительности модели.
Data Science
Можно ли заменить категориальные данные на числа в задачах классификации?
00
Вопрос или проблема Я работаю с данными классификации, которые имеют 9 классов и множество признаков. Классы, очевидно, категориальные, как и некоторые признаки. Я использовал технику одноразового кодирования для преобразования категориальных данных в числовые.
Data Science
Как использовать иерархическую переменную в модели машинного обучения
00
Вопрос или проблема Я работаю над задачей бинарной классификации с 1000 строками и 20 переменными. У меня есть такие переменные, как product_id, city, state, country, product family, product type, product segment и так далее. Как видно, большинство моих
Data Science
Выбор подмножества населения таким образом, чтобы распределение определенной переменной в подмножестве соответствовало эталонному распределению.
00
Вопрос или проблема У меня есть большая популяция ($P$) записей, и мне дана распределение определенной переменной ($x_0$) для конкретного подмножества ($S$) этой популяции. Подмножество $S$ не является случайной выборкой, и, следовательно, распределение
Data Science
Как применить модель к обучающим данным для выявления неправильно размеченных наблюдений?
00
Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи
Программное обеспечение
Альтернатива классификатору электронной почты POPFile
00
Вопрос или проблема Я использую POPFile уже много лет, но он не обновлялся годами. POPFile — это байесовский классификатор электронной почты. Обычно вы связываете это со спамом — это спам или не спам. Байесовские фильтры отлично справляются с этой задачей.
Data Science
Архитектура распознавания лиц
00
Вопрос или проблема Распознавание изображений использует глубокое обучение, а именно сверточные нейронные сети (CNN), для обучения и распознавания лиц. Обычно это подразумевает обучение на большом объеме данных. Однако в последнее время мы видим, как
Data Science
Можно ли использовать рекомендательную систему в качестве бинарного классификатора?
00
Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.
Data Science
Конфликт ввода RNN LSTM из-за генератора
00
Вопрос или проблема Я пытаюсь сделать классификацию текста с помощью LSTM RNN на последовательно дополненных до 255 длины последовательностях. Мои данные для классификации выглядят так 1, 'последовательность 1' Первый столбец — это метка класса для последовательности.
Data Science
Объедините одну метку с одной информацией для задачи классификации или многометочной классификации.
00
Вопрос или проблема Я хочу создать модель для поддержки принятия решений, чтобы предложить или не предложить клиентам страхование кредита. Потому что иногда клиенты, запрашивающие кредит и страхование кредита, имеют меньшую вероятность получить одобрение
Data Science
Набор данных для обучения предсказания оттока
00
Вопрос или проблема Я не понимаю, как сформировать свой набор данных из активности (входы в систему и т.д.) и характеристик (местоположение, возраст и т.д.) сырых данных пользователей. В конечном итоге, каждая строка обучающего набора будет содержать
Data Science
Инженерия признаков: признак свежести
00
Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я
Data Science
Я получаю отрицательный убыток, используя PyCharm, и положительный, используя Google Colab или Kaggle.
00
Вопрос или проблема У меня есть данные в виде изображений и 2 столбца: один содержит значения тангенса, а второй – для указания, являются ли мои значения отрицательными или положительными. У меня есть два выхода: классификация и регрессия.
Data Science
Проблема с моей пользовательской функцией потерь: я получаю отрицательное значение потерь в PyCharm и положительное в Google Colab или Kaggle.
00
Вопрос или проблема У меня есть данные в виде изображений и 2 колонок: одна содержит значения тангенсов, а вторая указывает, являются ли мои значения отрицательными или положительными, и у меня есть два вывода: классификация и регрессия.