classification
Data Science
Вопрос или проблема Мне интересно, какие шаги вы предпринимаете, чтобы решить, какую часть модели разморозить. Вы проводите несколько экспериментов? Поскольку использование GPU дорогостоящее, у вас должны быть какие-то рекомендации.
Data Science
Вопрос или проблема Я работаю над проектом по кластеризации воздушных объектов на основе их траекторий. Я хотел бы обучить модель на наборе данных с траекториями различных летающих объектов, чтобы позже я мог предсказать, к какому типу объекта относится
Data Science
Вопрос или проблема У меня есть набор данных о результатах студентов на экзаменах, который выглядит следующим образом: Class_ID Class_size Student_Number IQ Hours Score Top 1 3 3 101 10 98 1 1 3 4 99 19 80 0 1 3 6 130 3 95 0 2 5 4 93 5 50 0 2 5 5 […]
Data Science
Вопрос или проблема У меня есть тренировочный набор данных из 2600 строк и 26 колонок. Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.
Data Science
Вопрос или проблема Я хотел бы протестировать экспериментальный алгоритм для классификации строк. Более точно, набор данных должен быть разделен на множество GOOD хороших строк и множество BAD плохих строк. Алгоритм должен обучить модель, согласующуюся
Data Science
Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.
Data Science
Вопрос или проблема Я читал о функции validation_curve из scikit learn. Когда я запускаю эту функцию, она занимает слишком много времени. Поэтому я вместо этого строю графики результатов из grid search, что, кажется, намного быстрее.
Data Science
Вопрос или проблема Рассмотрим следующий сценарий. Я скульптор, и клиенты спрашивают меня, за какую цену я готов предоставить им некоторые статуи. Их запросы на скульптуры могут различаться по сложности, количеству, материалу, размеру.
Data Science
Вопрос или проблема У меня есть набор изображений, в котором 6300 изображений и 5 классов. Извлеченные признаки и набор данных уменьшены до 256 признаков. Этот набор данных дает хорошие результаты (99%) при тестировании ANN с обратным распространением (tensorflow).
Data Science
Вопрос или проблема В случае задачи классификации, где используется матрица затрат для максимизации производительности модели, обычным делом является применение техники ребалансировки. Допустим, у меня есть следующие затраты для двух классов.
Data Science
Вопрос или проблема В дереве решений показатель Джини[1] является метрикой для оценки того, насколько узел содержит различные классы. Он измеряет вероятность ошибочного определения класса, выбирая его случайным образом, используя распределение из этого
Data Science
Вопрос или проблема В классификаторе на основе дерева решений большинство алгоритмов используют Прибыль информации в качестве критерия разбиения. Мы выбираем признак с максимальной прибылью информации для разбиения. Я думаю, что использование точности
Data Science
Вопрос или проблема В настоящее время я занимаюсь задачей классификации для чрезмерно несбалансированного набора данных. Более конкретно, это набор данных для обнаружения мошенничества с примерно 290 тысячами строк данных, с распределением 99,8% для класса
Data Science
Вопрос или проблема Я работаю над моделью предсказания, чтобы определить, нужно ли продавать, удерживать или покупать акцию через n дней. Каждый день (или строка в наборе данных) я классифицирую, нужно ли продавать, удерживать или покупать, основываясь
Data Science
Вопрос или проблема Вот мой модельный код для бинарной классификации временного ряда: def make_model(feature_columns): feature_layer = tf.keras.layers.DenseFeatures(feature_columns) feature_layer_outputs = feature_layer(feature_layer_inputs) feature_layer_outputs = tf.
Data Science
Вопрос или проблема Я обучаю бинарный классификатор на наборе данных, используя AUC в качестве метрики. В наборе данных есть две основные группы (мы назовем их хорошей и плохой популяцией). Одна из характеристик этого набора данных заключается в том
Data Science
Вопрос или проблема У меня есть база данных с 50 разными классами. Один из классов содержит в 10 раз больше данных, чем другие классы. Каждый класс имеет ~20K образцов, а “большой” класс имеет ~200K образцов. При обучении модели классификации
Data Science
Вопрос или проблема Я нарисовал кривую обучения ниже. В верхней части моего тренировочного результата есть толстая красная полоса. Почему она так высока в начале? Ниже представлен фрагмент использованного кода: train_sizes, train_scores, test_scores =
Data Science
Вопрос или проблема Я больше изучал полупод监督ное обучение, в частности, распространение меток и размножение меток. Читая учебники и некоторые статьи, я заметил, что часто результаты распространения меток затем используются для построения контролируемой модели.
Data Science
Вопрос или проблема Пожалуйста, дайте мне знать, если этот вопрос уместно задать здесь Для контекста у меня есть набор данных о вовлеченности пользователей TikTok. Предсказанная переменная бинарная, либо ‘claim’, либо ‘