Data Science
В чем разница между многоклассовой категориальной кроссэнтропией, mlogloss и multi:softprob?
00
Вопрос или проблема Насколько я понимаю, целевая функция — это то, что я пытаюсь оптимизировать, а оценочная статистика — это то, что я использую для поиска переобучения. Я наткнулся на 4 функции потерь, которые, кажется, одинаковы, но я не совсем уверен.
Data Science
Определить членов, которые, вероятно, изменят место получения лекарственной терапии.
00
Вопрос или проблема У меня есть доступ к данным по медицинским выплатам от крупной страховой компании. Как некоторые из вас уже знают, существует большая разница в цене на препарат X в зависимости от места его применения. Наша компания хочет помочь участникам
Data Science
Как извлечь характеристики из длинных химических названий?
00
Вопрос или проблема У меня есть интересная проблема, не знаю даже, с чего начать. Я работаю над бинарным классификатором, который будет принимать химическое название, закодированное в виде строки, и прогнозировать, является ли оно ‘
Data Science
Является ли обобщение модели, а затем удаление обобщения, полезным для FFNN?
00
Вопрос или проблема Если вы обучаете базовую FFNN (Сеть с прямой связью), вы можете применять регуляризации, такие как дроп-аут, l1, l2 и гауссовский шум, чтобы модель была устойчивой и показывала лучшие результаты на новых данных.
Data Science
Мы рассматриваем рекомендации как задачу экстремальной многоклассовой классификации. Что здесь является классом? Это категория видео или само видео?
00
Вопрос или проблема В статье о рекомендациях на Youtube автор говорит, что генерация кандидатов является задачей многоклассовой классификации. Я пытаюсь понять, что здесь является классами: категория видео или само видео? Если это категория видео, как
Data Science
Пользовательский слой для простого экспоненциального сглаживания
00
Вопрос или проблема Я пишу тестовый пользовательский слой, который реализует алгоритм простого экспоненциального сглаживания. Проблема: когда я его обучаю, коэффициент альфа (сглаживание) всегда сходится к значению 1. Это означает, что прогноз на один
Data Science
Корректная теоретическая регуляризованная объектная функция для XGB/LGBM (задача регрессии)
00
Вопрос или проблема Я пишу академическую работу по применению методов машинного обучения к прогнозированию временных рядов, и не уверен, как описать теоретическую часть о регуляризованной целевой функции для XGBoost. Ниже вы можете найти уравнение, представленное
Data Science
Лучшие методы стратификации данных на 4 группы (несупервизорным способом) с использованием набора/комбинации переменных.
00
Вопрос или проблема Я пытаюсь стратифицировать группу пациентов по возможным молекулярным подтипам рака. Я понимаю, что у всех этих пациентов есть рак, но целью является (вне зависимости от обучения) кластеризовать их на 4 возможных подтипа.
Data Science
Помощь в прогнозировании центров затрат
00
Вопрос или проблема Как говорит заголовок: Мне поставили задачу предсказать центры затрат для данных о грузоперевозках. Я совершенно не представляю, как это сделать. Уникальное количество центров затрат превышает 5000, а количество признаков составляет около 100.
Data Science
Переносное обучение: Плохая производительность при замене последнего слоя
00
Вопрос или проблема Я использую подход с transfer learning. Для этого я следовал уроку tensorflow для поэтов. Я использую заранее обученную архитектуру InceptionV3, натренированную на наборе данных Imagenet. Последний слой и классификация softmax были
Data Science
Помощь в создании предсказательной модели для прогнозирования количества лидов когорты.
01
Вопрос или проблема Мы онлайн-школа, у нас новые группы начинаются в первый день каждого месяца. В течение ~45 дней, предшествующих первому дню, мы получаем отчет каждые 3-4 дня, который сообщает нам о количестве потенциальных клиентов, которые мы получили для предстоящей группы.
Data Science
Как обучить модель Keras на оригинальных и увеличенных данных из ImageDataGenerator?
00
Вопрос или проблема У меня есть набор данных, который содержит около 87000 изображений в директории, причем каждый класс находится в отдельной подпапке. Я попробовал класс ImageDataGenerator() и функцию flow_from_directory() для генерации изображений
Data Science
Как использовать KS-тест в отчете по Data Science?
00
Вопрос или проблема Я пишу отчет по анализу данных и хочу найти распределение, которое подойдёт для моей выборки. Я получил хороший результат , но когда я использовал тест Колмогорова-Смирнова (KS-test) для проверки модели, я получил низкое значение p, 1.
Data Science
Требуется ли масштабирование для таких наборов данных?
00
Вопрос или проблема У меня есть набор данных с такими характеристиками, как количество просмотров продукта (в сотнях тысяч), количество кликов по продуктам (в тысячах), коэффициент конверсии (в десятичном формате, например, 7,6%) и продажи (в сотнях).
Data Science
Тренды и темы искусственного интеллекта
00
Вопрос или проблема Мне интересно, существуют ли веб-сайты, с помощью которых можно постоянно быть в курсе последних тенденций или тем, связанных с разрушительными приложениями в области искусственного интеллекта. Обычно я читаю научные публикации, посвященные
Data Science
Включение структурной информации в трансформер?
03
Вопрос или проблема В задаче нейронного машинного перевода (NMT) мои входные данные содержат реляционную информацию. Эти отношения можно смоделировать с помощью графовой структуры. Один из подходов может заключаться в использовании графовой нейронной
Data Science
Распознавание форм для фигур, образованных точечными точками
00
Вопрос или проблема На изображении, в правом нижнем углу, находятся круг и треугольник, созданные с помощью набора координат. Я тщательно искал в интернете алгоритм или подход для правильной классификации формы. И все же мне ничего не удалось найти.
Data Science
Скорость для различных ядер в SVM scikit-learn
00
Вопрос или проблема Я использую scikit-learn в Python для создания моделей, пробуя разные ядра. Я был удивлён, увидев, что RBF обучается менее чем за секунду, тогда как линейная модель заняла минуту, а полиномиальная — часы. Может кто-то объяснить, почему это происходит?
Data Science
Как обрабатывать сходство слов и категоризировать группу слов в одно слово.
00
Вопрос или проблема Я новичок в этой области и довольно долго искал решения, только чтобы наткнуться на множество различных возможных подходов, но ничего конкретного. Если у меня есть список слов, скажем: email_addr, email, email_address, address или
Data Science
Градиентный бустинг – Зачем псевдо-остатки?
00
Вопрос или проблема У меня есть несколько вопросов, которые я не совсем понимаю относительно алгоритма градиентного бустинга с решающими деревьями: Имеет ли значение начальное значение как $\hat{y}$ или вы можете выбрать любое, например, между 0 и 1?