Data Science
Как выбрать слой, из которого нужно разморозить модель классификации изображений
00
Вопрос или проблема Мне интересно, какие шаги вы предпринимаете, чтобы решить, какую часть модели разморозить. Вы проводите несколько экспериментов? Поскольку использование GPU дорогостоящее, у вас должны быть какие-то рекомендации.
Data Science
Какие алгоритмы машинного обучения могут быть использованы для классификации траекторий?
00
Вопрос или проблема Я работаю над проектом по кластеризации воздушных объектов на основе их траекторий. Я хотел бы обучить модель на наборе данных с траекториями различных летающих объектов, чтобы позже я мог предсказать, к какому типу объекта относится
Data Science
Наиболее естественный класс моделей машинного обучения для групповых данных/данных о расе
00
Вопрос или проблема У меня есть набор данных о результатах студентов на экзаменах, который выглядит следующим образом: Class_ID Class_size Student_Number IQ Hours Score Top 1 3 3 101 10 98 1 1 3 4 99 19 80 0 1 3 6 130 3 95 0 2 5 4 93 5 50 0 2 5 5 […]
Data Science
Результаты XGBoost меняются при удалении одной строки
00
Вопрос или проблема У меня есть тренировочный набор данных из 2600 строк и 26 колонок. Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.
Data Science
Наборы данных для классификации строк
00
Вопрос или проблема Я хотел бы протестировать экспериментальный алгоритм для классификации строк. Более точно, набор данных должен быть разделен на множество GOOD хороших строк и множество BAD плохих строк. Алгоритм должен обучить модель, согласующуюся
Data Science
Как мне работать с колонками, основанными на временной длительности, в классификации?
00
Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.
Data Science
Интерпретация кривой валидации
00
Вопрос или проблема Я читал о функции validation_curve из scikit learn. Когда я запускаю эту функцию, она занимает слишком много времени. Поэтому я вместо этого строю графики результатов из grid search, что, кажется, намного быстрее.
Data Science
Модель машинного обучения с одновременной оптимизацией функции
00
Вопрос или проблема Рассмотрим следующий сценарий. Я скульптор, и клиенты спрашивают меня, за какую цену я готов предоставить им некоторые статуи. Их запросы на скульптуры могут различаться по сложности, количеству, материалу, размеру.
Data Science
model.evaluate дает низкие результаты?
00
Вопрос или проблема У меня есть набор изображений, в котором 6300 изображений и 5 классов. Извлеченные признаки и набор данных уменьшены до 256 признаков. Этот набор данных дает хорошие результаты (99%) при тестировании ANN с обратным распространением (tensorflow).
Data Science
Как получить стратегию перебалансировки с матрицей затрат?
00
Вопрос или проблема В случае задачи классификации, где используется матрица затрат для максимизации производительности модели, обычным делом является применение техники ребалансировки. Допустим, у меня есть следующие затраты для двух классов.
Data Science
Импурия Джини в дереве решений (причины для использования)
00
Вопрос или проблема В дереве решений показатель Джини[1] является метрикой для оценки того, насколько узел содержит различные классы. Он измеряет вероятность ошибочного определения класса, выбирая его случайным образом, используя распределение из этого
Data Science
Почему мы используем информационный прирост вместо точности в качестве критерия разделения в решающем дереве?
00
Вопрос или проблема В классификаторе на основе дерева решений большинство алгоритмов используют Прибыль информации в качестве критерия разбиения. Мы выбираем признак с максимальной прибылью информации для разбиения. Я думаю, что использование точности
Data Science
Интерпретация метрик оценки для несбалансированного набора данных
00
Вопрос или проблема В настоящее время я занимаюсь задачей классификации для чрезмерно несбалансированного набора данных. Более конкретно, это набор данных для обнаружения мошенничества с примерно 290 тысячами строк данных, с распределением 99,8% для класса
Data Science
Как мне справиться с несбалансированными классами в задаче предсказания фондового рынка?
00
Вопрос или проблема Я работаю над моделью предсказания, чтобы определить, нужно ли продавать, удерживать или покупать акцию через n дней. Каждый день (или строка в наборе данных) я классифицирую, нужно ли продавать, удерживать или покупать, основываясь
Data Science
Потери становятся NaN через короткое время для классификации временных рядов.
00
Вопрос или проблема Вот мой модельный код для бинарной классификации временного ряда: def make_model(feature_columns): feature_layer = tf.keras.layers.DenseFeatures(feature_columns) feature_layer_outputs = feature_layer(feature_layer_inputs) feature_layer_outputs = tf.
Data Science
Наложите аналогичную метрику на сегменты для моделирования.
00
Вопрос или проблема Я обучаю бинарный классификатор на наборе данных, используя AUC в качестве метрики. В наборе данных есть две основные группы (мы назовем их хорошей и плохой популяцией). Одна из характеристик этого набора данных заключается в том
Data Science
Когда использование весов классов плохо?
00
Вопрос или проблема У меня есть база данных с 50 разными классами. Один из классов содержит в 10 раз больше данных, чем другие классы. Каждый класс имеет ~20K образцов, а “большой” класс имеет ~200K образцов. При обучении модели классификации
Data Science
Что означает график стандартного отклонения вокруг моей кривой обучения?
00
Вопрос или проблема Я нарисовал кривую обучения ниже. В верхней части моего тренировочного результата есть толстая красная полоса. Почему она так высока в начале? Ниже представлен фрагмент использованного кода: train_sizes, train_scores, test_scores =
Data Science
Каковы преимущества комбинирования полун supervised и управляемых методов обучения?
00
Вопрос или проблема Я больше изучал полупод监督ное обучение, в частности, распространение меток и размножение меток. Читая учебники и некоторые статьи, я заметил, что часто результаты распространения меток затем используются для построения контролируемой модели.
Data Science
Переобучение нейронной сети на линейно разделимом наборе данных
00
Вопрос или проблема Пожалуйста, дайте мне знать, если этот вопрос уместно задать здесь Для контекста у меня есть набор данных о вовлеченности пользователей TikTok. Предсказанная переменная бинарная, либо ‘claim’, либо ‘