Data Science
Понимание доверительного интервала
00
Вопрос или проблема Я пытаюсь понять концепцию доверительных интервалов. Каково значение точечных оценок и доверительных интервалов? Я понял, что точечная оценка в доверительном интервале по сути является статистикой распределения выборки.
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Почему 100%-ная точность на тестовых данных не является хорошей?
00
Вопрос или проблема Мне задали этот вопрос на собеседовании, и я не смог дать удовлетворительный ответ не только по ожиданиям интервьюеров, но и по своим собственным. Вопрос был как выше, только он позже привел пример, почему, если моя модель предсказала
Data Science
Какие модели использовать для высокоразмерной неконтролируемой классификации?
00
Вопрос или проблема У меня есть некоторые данные телеметрии от автомобилей, которые записывают около 500 переменных (например, температура двигателя, температура выхлопа и т. д.). Я хотел бы иметь возможность классифицировать данные в соответствии с действиями
Data Science
Является ли это подходящим способом для расчета диаграммы надежности многоклассовой модели для калибровки?
00
Вопрос или проблема Я пытаюсь обобщить диаграммы надежности [1] для многоклассового классификатора и реализовать это с использованием pytorch и pytorch-metrics. Пока все хорошо, но я немного запутан в определении точности и том, как это применимо к пересечению
Data Science
Понимание LSTM сети
00
Вопрос или проблема Привет, я работал над проектом по созданию аппаратной реализации сети LSTM для обнаружения аномалий. Я пытался понять общую структуру сети lstm для прогнозирования одновариантных временных рядов. Я работал над созданием слоя, который
Data Science
Как правильно группировать переменные для расчета WoE при кредитном scoring?
00
Вопрос или проблема Я прочитал эту статью о разработке кредитной оценочной карты на python, где говорится, что при группировке непрерывных переменных необходимо убедиться, что: 1. Каждая группа должна содержать не менее 5% наблюдений 2.
Data Science
Сравнить несколько значений из DataFrame с одной строкой из другого.
00
Вопрос или проблема Я пытаюсь сравнить значения адресов на предмет неточностей, например, данные по нескольким записям, как показано ниже: Ссылка Квартира Адрес Почтовый индекс AS097 NaN 00 Name Road BH1 4HB AS097 Квартира 1 Название здания 00 Name Road
Data Science
Прогнозирование временных рядов для продаж в нескольких магазинах с одновременными временными метками
00
Вопрос или проблема У меня есть набор данных по продажам, в котором каждый магазин имеет уникальный идентификатор. Набор данных содержит ежедневные данные о продажах для каждого магазина за период около двух лет. Я хочу построить модель прогнозирования
Data Science
Как вычислить временно задержанную корреляцию между двумя переменными с множеством примеров в каждый момент времени t?
00
Вопрос или проблема У меня есть словарь следующей формы: datetimes = {год : {имя : (оценка1, оценка2)}} # есть 50+ имен/год Таким образом, по сути, я пытаюсь получить общее представление о том, как оценка1 в год_n коррелирует с оценкой2 в год_n.
Data Science
Как декодировать закодированные метки в классификаторе деревьев решений
00
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Ошибка формы ввода
00
Вопрос или проблема У меня есть этот элемент: [‘6’, ‘1’, ‘6’, ‘843537’, ‘3’, ‘0’, ‘5’, ‘1006709’, ‘3’, ‘1’
Data Science
Масштабирование и нессимметричные преобразования признаков для классификации
00
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Кривая MAP для оценки процесса обучения Mask RCNN на синтетических данных
00
Вопрос или проблема Является ли MAP (Средняя Средняя Точность) хорошей заменой для измерения точности обучения и валидации на различных этапах обучения модели машинного обучения для обнаружения объектов? Я повторно обучаю Mask RCNN (предварительно обученный
Data Science
У меня есть 32 тысячи черно-белых изображений. Хочу сделать кластеризацию на них.
00
Вопрос или проблема Как говорит заголовок, я пытаюсь провести кластеризацию на наборе черно-белых изображений. Эти изображения все 200×200 с черными точками на белом фоне Примеры изображений здесь (это не реальные фотографии из набора данных.
Data Science
Как работать с очень маленьким набором данных в прогнозировании временных рядов?
00
Вопрос или проблема У меня есть набор данных о расходах, по которому мне нужно прогнозировать на 5 лет вперед с очень ограниченными данными (только 10 данных за 5 лет). Мне нужно предсказать каждый период в году, где январь-июнь (первый срок) и июль-декабрь (второй срок).
Data Science
Модель цепочки поставок
00
Вопрос или проблема Ищем способ создать модель управления цепочкой поставок. Это будет включать в себя данные о погоде, данные о грузоперевозках, уровни предложения и спроса. Конечная цель – предсказать цену с помощью такой модели.
Data Science
Использование KerasClassifier для обучения нейронной сети
00
Вопрос или проблема Я создал простую нейронную сеть для бинарной классификации текста (спам/неспам) с использованием предобученного трансформера BERT. Текущая реализация на чистом Keras работает нормально. Однако я хотел построить график некоторых метрик
Data Science
Представление геопространственной информации
00
Вопрос или проблема Я пытаюсь обучить модель, чтобы предсказать местоположение шторма в заданный момент времени. Набор данных включает долготу и широту шторма в указанные “временные отметки”, но я не уверен, что это лучший способ представления
Data Science
Могу ли я сравнить средние абсолютные значения SHAP для разных моделей?
00
Вопрос или проблема Я сравниваю 3 различные классификатора: ANN, XG Boost и Random Forest для прогнозирования. Я также использовал SHAP для оценки важности признаков. Меня интересуют только 10 лучших признаков на основе SHAP. 3 классификатора имеют только