Data Science
Что (в мире) такое хорошо обусловленный против низкозначного многопрофильного сингулярного распределения?
00
Вопрос или проблема В Scikit learn есть генератор данных make_regression. Можете кто-нибудь объяснить мне, как будто мне 5 лет, что имеется в виду в документации под “Набор входных данных может быть хорошо обусловленным (по умолчанию) или иметь
Data Science
Как построить генеративную модель, когда у нас есть более одной переменной
00
Вопрос или проблема У меня есть дата-фрейм, который выглядит примерно так: A B C 1 2 2 2 4 3 4 8 5 9 16 7 16 32 11 22 43 14 28 55 17 34 67 20 40 79 23 A, B и C можно считать признаками в литературе по машинному обучению. Я изучал […]
Data Science
Вероятность гауссовского наивного байеса
00
Вопрос или проблема Как мне присвоить вероятность предсказанию, выведенному моделью гауссовского наивного байеса? Я спрашиваю, потому что функция predict_proba, которую вы можете использовать с классификатором гауссовского наивного байеса в sklearn, дает
Data Science
Как я могу сравнить точность моделей импутации, если в файле уже есть пропущенные данные?
00
Вопрос или проблема Предположим, у меня есть набор данных из 50 000 записей, из которых примерно 2% отсутствовали изначально. Из того, что я узнал, нам нужно использовать индикаторы для сравнения модели импутации с истинным значением, чтобы проверить
Data Science
Ошибка типа “прерывистая” при запуске CNN внутри контейнера Docker
00
Вопрос или проблема Я работал над простым API компьютерного зрения с несколькими конечными точками для извлечения полезной информации из изображений ebay. API размещается в контейнере Docker, который ищет h5 файлы, загружает их, если они отсутствуют
Data Science
Геуристики для предсказания модели NER
00
Вопрос или проблема Я пытаюсь создать модель NER, которая может называть сущности в “Описание работы”. Сущности: Обязательные навыки (Обязательные навыки, такие как java, python, c++ и т.д.) Желательные навыки (кандидат “
Data Science
Задача многоклассовой классификации с несколькими целями для прогнозирования
00
Вопрос или проблема У нас есть задача классификации с несколькими классами под контролем, где необходимо предсказать две цели для каждого образца: ‘бренд’ и ‘категория’. Наши признаки – ‘shop_name’
Data Science
Недостающие данные в обучающем наборе и тестовом наборе
00
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Анализ настроений на основе аспектов с использованием Bert и Pytorch
00
Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я
Data Science
Понимание размеров входных и выходных данных для Embeddings
00
Вопрос или проблема Я пытался разобраться в размерности векторов представлений в нейронных сетях, и, похоже, наконец, у меня что-то щелкнуло в голове. Тем не менее, мне хотелось бы проверить, правильно ли я понимаю. Векторы представлений — это эффективный
Data Science
Множественные гипотезы в Python
00
Вопрос или проблема Я хочу написать метод для тестирования нескольких гипотез для пары школ (скажем, TAMU и UT Austin). Я хочу рассмотреть все возможные пары слов (Исследование, Тезис, Предложение, ИИ, Аналитика) и протестировать гипотезу о том, что количество
Data Science
Как проводится оценка модели и повторное обучение после развертывания без меток истинного значения?
00
Вопрос или проблема Предположим, я развернул модель, вручную пометив истинные метки с моими обучающими данными, поскольку в данном случае нет способа получить истинные метки без участия человека. После развертывания модели, если я хотел бы оценить, как
Data Science
Почему seaborn строит мои ящичные диаграммы так?
00
Вопрос или проблема Я занимаюсь проектом по обнаружению выбросов, и одним из методов для понимания моего набора данных я использую ящики с усами, чтобы визуализировать, как данные расположены относительно всех данных для этой конкретной характеристики.
Data Science
ошибка памяти – матрица переходов Марковского процесса N-го порядка из данной последовательности
00
Вопрос или проблема Хорошо. Что не так с вашим кодом! Я пытаюсь вычислить вероятности перехода для каждого этапа. Код работает для небольшого массива, но для реального набора данных у меня возникла ошибка памяти. У меня версия Python на 64 ГБ, и я максимизировал
Data Science
OpenAI Gym: gym.make() не ссылается на обновленный код Env
00
Вопрос или проблема Я создаю свою кастомную среду Gym, и до сих пор всё работало хорошо, следуя инструкциям, распространённым по интернету. Однако сейчас я нахожусь на этапе, когда часто происходят изменения в классе среды (наследуя gym.
Data Science
Градиентный вывод через пользовательскую функцию потерь
00
Вопрос или проблема Я совершенно нов в Pytorch (и в машинном обучении в целом), поэтому мне трудно понять, что происходит в отношении настраиваемой функции потерь, которую я рассматриваю. Я понимаю, что происходит в функции, но мне нужно понять, как рассчитывается
Data Science
Обработка пропущенных значений в предикторах для моделей градиентного бустинга (gbm()) в R
00
Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации
Data Science
Почему потери MSE и кросс-энтропии имеют одинаковый градиент?
00
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной
Data Science
построить график результатов gridsearch из файла csv как?
00
Вопрос или проблема как я могу построить график своих результатов из csv файла gridsearch? clf = GridSearchCV(pipeline, parameters, cv=3, return_train_score=True) clf.fit(x, y) df = pd.DataFrame(clf.cv_results_) я пытаюсь получить график, похожий на тот
Data Science
Res2Net50 с AM-Softmax для проверки говорящего: Почему average_accuracy возвращает только 0 или 100?
00
Вопрос или проблема Я создаю модель Res2Net50 для задачи верификации говорящего. Я использую AM-Softmax в качестве функции потерь с следующими параметрами: Маржа: 0.2 Масштаб: 10 После обучения модели в течение 5 эпох на наборе данных с 1000 точками данных