Data Science

Настройка пользовательского оценщика GridSearchCV для учета как производительности на обучающей, так и на тестовой выборках

00

Вопрос или проблема Согласно моему текущему пониманию, стандартное использование оценок GridSearchCV (через доступные параметры, такие как “f1_micro”) направлено на максимизацию среднего качества по валидационным складам.

Data Science

Как я могу использовать частичные метки для классификации?

00

Вопрос или проблема Как можно обучить классификатор на данных, которые не всегда полностью маркированы? Например, предположим, что у нас есть искажённые данные из набора CIFAR-10 (в котором есть метки, такие как птица/автомобиль/корабль/грузовик).

Data Science

Речь в текст для неподдерживаемого языка

00

Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.

Data Science

Обнаружение аномалий – связь между порогами и аномалиями

00

Вопрос или проблема Я разрабатываю программу для обнаружения аномалий на Python. Основная идея заключается в том, чтобы каждый день создавать новую модель LSTM, обучать ее на данных за предыдущие 7 дней и предсказывать следующий день.

Data Science

xgboost – colsample_bylevel и colsample_bynode

00

Вопрос или проблема Я не совсем понимаю значение этих параметров xgboost или как они отличаются: Если я укажу ровно один из этих параметров (не оба одновременно), colsample_bylevel=0.5 colsample_bynode=0.5 разве алгоритмы не должны вести себя одинаково в обоих случаях?

Data Science

Проблема классификации с временными запаздываниями – какую модель выбрать для предсказания присутствия-отсутствия в будущих временных точках

00

Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.

Data Science

Метрики – сравнение много классовых моделей

01

Вопрос или проблема Я ищу способ количественно оценить работу маркеров многоуровневой модели и, таким образом, сравнить их. Я хочу учесть то, что некоторые классы «ближе» друг к другу, чем другие (например, автомобиль «ближе» к «грузовику», чем «цветок»).

Data Science

Существует ли список всех неправильно размеченных изображений MNIST с их правильными метками?

00

Вопрос или проблема Кажется, всем известно, что набор данных MNIST с рукописными цифрами содержит довольно много примеров, где метки явно неверные и соответствуют неправильной цифре; ниже приведены некоторые примеры людей, которые исследовали этот вопрос: https://arxiv.

Data Science

Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?

00

Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими

Data Science

Рекуррентные нейронные сети над несколькими документами во времени

00

Вопрос или проблема Так что в моей голове у меня есть идея о том, как должна выглядеть эта архитектура, или, по крайней мере, как она должна себя вести, но мне трудно ее реализовать. Позвольте мне описать проблему, и если кто-то имеет идеи о том, как

Data Science

Модель предрасположенности только с положительными данными

00

Вопрос или проблема Возможно ли построить модель склонности (т.е. вероятность того, что пользователь купит товар), используя только положительные значения? Например, у меня есть множество данных о Клиентах (людях, которые что-то купили) и Пользователях

Data Science

Количество капсул в первичном слое капсульных сетей

00

Вопрос или проблема Какое количество капсул в основной капсульной слой сети капсул? Во многих статьях написано, что количество капсул составляет 32, но в статье Хинтона – Динамическая маршрутизация между капсулами написано, что “

Data Science

Лучший алгоритм для рекомендательной системы на основе текста

00

Вопрос или проблема Помогите мне разобраться в лучшем алгоритме для системы рекомендаций статей, которая использует содержание статей для формирования рекомендаций. Какой алгоритм следует рассмотреть в случае большого объема текстовых данных для рекомендаций?

Data Science

install_tensorflow() постоянно перезаписывает виртуальное окружение, что делает невозможным установить tensorflow и keras.

00

Вопрос или проблема Я хотел бы использовать пакет Keras & Tensorflow для R в RStudio. Каждый раз, когда я использую команду install_keras() или install_tensorflow(), я получаю следующую ошибку: Сборка keras Не удалось получить URL https://pypi.

Data Science

Сравнение производительности модели со средней производительностью

00

Вопрос или проблема Я хотел предсказать возраст пассажиров Титаника, но заметил, что люди часто просто заполняют отсутствующие значения возраста средним значением. Я хотел сравнить производительность своей модели с простым подходом среднего значения.

Data Science

Декомпозиция R-квадрат или VIF

00

Вопрос или проблема В контексте множественной регрессии меня интересует, есть ли способ разложить $$VIF_i = 1/(1-R_i^2)$$, где $R_i^2$ — это коэффициент детерминации, полученный из регрессии зависимой переменной = i и независимыми переменными, являющимися всеми другими факторами.

Data Science

Модель для классификации временных рядов с уникальными характеристиками

00

Вопрос или проблема Я часто слышал, что классификация временных рядов выполняется с использованием объединенных TCN и CNN с LSTM, утверждая, что CNN предоставляют информацию как о будущем, так и о прошлом, поскольку у вас уже есть вся информация за этот временной период.

Data Science

Попытка определить степень полинома для полиномиальной регрессии

00

Вопрос или проблема Я пытаюсь предсказать вес новорожденного, используя полиномиальную регрессионную модель. Сначала мне нужно понять, какая степень полинома лучше всего подходит для моих данных. Для этого я разделил свой набор данных на обучающую выборку

Data Science

Почему поисковые системы не фильтруют неэтичные/незаконные запросы?

00

Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “

Data Science

Переобучение модели timeGAN

00

Вопрос или проблема Я использую timeGAN из репозитория ydata-synthetic, и у меня вопрос о повторном обучении модели. Предположим, мы обучили модель, скажем, synth1, на определенном наборе данных. Теперь у нас есть новый набор данных, который имеет схожие