Data Science
Настройка пользовательского оценщика GridSearchCV для учета как производительности на обучающей, так и на тестовой выборках
00
Вопрос или проблема Согласно моему текущему пониманию, стандартное использование оценок GridSearchCV (через доступные параметры, такие как “f1_micro”) направлено на максимизацию среднего качества по валидационным складам.
Data Science
Как я могу использовать частичные метки для классификации?
00
Вопрос или проблема Как можно обучить классификатор на данных, которые не всегда полностью маркированы? Например, предположим, что у нас есть искажённые данные из набора CIFAR-10 (в котором есть метки, такие как птица/автомобиль/корабль/грузовик).
Data Science
Речь в текст для неподдерживаемого языка
00
Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.
Data Science
Обнаружение аномалий – связь между порогами и аномалиями
00
Вопрос или проблема Я разрабатываю программу для обнаружения аномалий на Python. Основная идея заключается в том, чтобы каждый день создавать новую модель LSTM, обучать ее на данных за предыдущие 7 дней и предсказывать следующий день.
Data Science
xgboost – colsample_bylevel и colsample_bynode
00
Вопрос или проблема Я не совсем понимаю значение этих параметров xgboost или как они отличаются: Если я укажу ровно один из этих параметров (не оба одновременно), colsample_bylevel=0.5 colsample_bynode=0.5 разве алгоритмы не должны вести себя одинаково в обоих случаях?
Data Science
Проблема классификации с временными запаздываниями – какую модель выбрать для предсказания присутствия-отсутствия в будущих временных точках
00
Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.
Data Science
Метрики – сравнение много классовых моделей
01
Вопрос или проблема Я ищу способ количественно оценить работу маркеров многоуровневой модели и, таким образом, сравнить их. Я хочу учесть то, что некоторые классы «ближе» друг к другу, чем другие (например, автомобиль «ближе» к «грузовику», чем «цветок»).
Data Science
Существует ли список всех неправильно размеченных изображений MNIST с их правильными метками?
00
Вопрос или проблема Кажется, всем известно, что набор данных MNIST с рукописными цифрами содержит довольно много примеров, где метки явно неверные и соответствуют неправильной цифре; ниже приведены некоторые примеры людей, которые исследовали этот вопрос: https://arxiv.
Data Science
Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?
00
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Рекуррентные нейронные сети над несколькими документами во времени
00
Вопрос или проблема Так что в моей голове у меня есть идея о том, как должна выглядеть эта архитектура, или, по крайней мере, как она должна себя вести, но мне трудно ее реализовать. Позвольте мне описать проблему, и если кто-то имеет идеи о том, как
Data Science
Модель предрасположенности только с положительными данными
00
Вопрос или проблема Возможно ли построить модель склонности (т.е. вероятность того, что пользователь купит товар), используя только положительные значения? Например, у меня есть множество данных о Клиентах (людях, которые что-то купили) и Пользователях
Data Science
Количество капсул в первичном слое капсульных сетей
00
Вопрос или проблема Какое количество капсул в основной капсульной слой сети капсул? Во многих статьях написано, что количество капсул составляет 32, но в статье Хинтона – Динамическая маршрутизация между капсулами написано, что “
Data Science
Лучший алгоритм для рекомендательной системы на основе текста
00
Вопрос или проблема Помогите мне разобраться в лучшем алгоритме для системы рекомендаций статей, которая использует содержание статей для формирования рекомендаций. Какой алгоритм следует рассмотреть в случае большого объема текстовых данных для рекомендаций?
Data Science
install_tensorflow() постоянно перезаписывает виртуальное окружение, что делает невозможным установить tensorflow и keras.
00
Вопрос или проблема Я хотел бы использовать пакет Keras & Tensorflow для R в RStudio. Каждый раз, когда я использую команду install_keras() или install_tensorflow(), я получаю следующую ошибку: Сборка keras Не удалось получить URL https://pypi.
Data Science
Сравнение производительности модели со средней производительностью
00
Вопрос или проблема Я хотел предсказать возраст пассажиров Титаника, но заметил, что люди часто просто заполняют отсутствующие значения возраста средним значением. Я хотел сравнить производительность своей модели с простым подходом среднего значения.
Data Science
Декомпозиция R-квадрат или VIF
00
Вопрос или проблема В контексте множественной регрессии меня интересует, есть ли способ разложить $$VIF_i = 1/(1-R_i^2)$$, где $R_i^2$ — это коэффициент детерминации, полученный из регрессии зависимой переменной = i и независимыми переменными, являющимися всеми другими факторами.
Data Science
Модель для классификации временных рядов с уникальными характеристиками
00
Вопрос или проблема Я часто слышал, что классификация временных рядов выполняется с использованием объединенных TCN и CNN с LSTM, утверждая, что CNN предоставляют информацию как о будущем, так и о прошлом, поскольку у вас уже есть вся информация за этот временной период.
Data Science
Попытка определить степень полинома для полиномиальной регрессии
00
Вопрос или проблема Я пытаюсь предсказать вес новорожденного, используя полиномиальную регрессионную модель. Сначала мне нужно понять, какая степень полинома лучше всего подходит для моих данных. Для этого я разделил свой набор данных на обучающую выборку
Data Science
Почему поисковые системы не фильтруют неэтичные/незаконные запросы?
00
Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “
Data Science
Переобучение модели timeGAN
00
Вопрос или проблема Я использую timeGAN из репозитория ydata-synthetic, и у меня вопрос о повторном обучении модели. Предположим, мы обучили модель, скажем, synth1, на определенном наборе данных. Теперь у нас есть новый набор данных, который имеет схожие