Data Science
Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными?
00
Вопрос или проблема Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными? Искаженность данных очень высока. Я использовал XGBoost с целевой функцией линейной регрессии (но данные были преобразованы
Data Science
Как добавить стоп-слова в язык, не указанный в фильтрации текста в Orange?
00
Вопрос или проблема В окне “Предобработка текста” Orange, в разделе Фильтрация, стоп-слова предоставлены в списке языков. Мы также можем загрузить собственный список стоп-слов. Возможно ли также загрузить собственный список стоп-слов на языке
Data Science
Обнаружить временной паттерн в последовательности событий
00
Вопрос или проблема У меня есть временной ряд с меткой времени и связанным событием: Время Событие 1 A 2 B 3 C T A Мне было интересно, существует ли техника/метод, чтобы выяснить, какие события чаще всего предшествуют другим в заданном временном промежутке.
Data Science
Генетический алгоритм, использующий только отбор
00
Вопрос или проблема Предположим, у вас есть популяция из N особей с фитнесом 1, 2, . . . , N (т.е. все особи имеют уникальные значения фитнеса). Предположим, вы многократно применяете отбор в турнире без замены с размером турнира s = 2 к этой популяции
Data Science
Какие шаблоны проектирования в программной инженерии наиболее часто применяются при создании пайплайнов и других рабочих процессов в области данных, науки о данных и машинного обучения?
00
Вопрос или проблема В программной инженерии шаблон проектирования — это общее, многократно используемое решение для общей проблемы в проектировании программного обеспечения. Это не законченный кусок кода, а скорее шаблон или лучшая практика, которую можно
Data Science
Недостающие данные продолжают появляться.
00
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Запуск Tensorflow MobileNet из Java
00
Вопрос или проблема Я пытаюсь запустить Tensorflow для распознавания изображений (классификация) на Java (JSE, не Android). Я использую код из здесь, и здесь. Он работает для моделей Inceptionv3 и для моделей, переобученных на Inceptionv3.
Data Science
Как написать пользовательский алгоритм деидентификации на Python?
00
Вопрос или проблема Я попробовал простой алгоритм для анонимизации своих данных, используя технику деидентификации. Но код не работает для меня. Я хочу анонимизировать данные, слегка изменив значения. Образец данных доступен здесь import pandas as pd
Data Science
Как управлять ошибкой выжившего в метриках конверсии?
00
Вопрос или проблема Я пытаюсь понять, как работают уменьшенные доходы от дополнительной рекламы. В основном, конвертируется ли 2-я реклама хуже, чем 1-я, и так далее. Мне тяжело думать о том, как справляться с смещением выживаемости, потому что, если
Data Science
При использовании Jupyter (ядро R) и библиотеки keras. Когда ячейка запускается, нет вывода. Без вывода невозможно узнать, как работает код.
00
Вопрос или проблема Код обнаружения объектов цифр с использованием keras действительно работает в Jupyter с ядром R. Но потребовалось три попытки, чтобы понять, что проблема не в Jupyter, не в ядре R и не в коде. Проблема заключалась в том, что ошибочно
Data Science
Есть ли способ быстро собрать категориальные признаки в DataFrames на Julia?
00
Вопрос или проблема Я использую Julia 0.6.3 с Dataframes.jl Мне было интересно, есть ли способ легко получить категориальные признаки в Julia? Для больших наборов данных может быть невозможно ввести все вручную. Мой обходной путь — полагаться на строки
Data Science
Проблема с моей пользовательской функцией потерь: я получаю отрицательное значение потерь в PyCharm и положительное в Google Colab или Kaggle.
00
Вопрос или проблема У меня есть данные в виде изображений и 2 колонок: одна содержит значения тангенсов, а вторая указывает, являются ли мои значения отрицательными или положительными, и у меня есть два вывода: классификация и регрессия.
Data Science
Кросс-энтропийная потеря вообще важна, потому что при обратном распространении важны только вероятности Softmax и вектор one hot?
00
Вопрос или проблема Насколько важна функция потерь перекрестной энтропии (CEL), если при обратном распространении ошибки (BP) важны только вероятности Softmax (SM) и вектор one hot? При применении BP производная CEL – это разница между выходной
Data Science
Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения
00
Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны
Data Science
Контекстная коррекция орфографии
00
Вопрос или проблема Я хочу создать проверку правописания, которая исправляет орфографические ошибки с учетом контекста. Например, Ошибочное предложение: Я хочу подать заявку на кредит корзину Исправленное предложение: Я хочу подать заявку на кредит карту
Data Science
Почему неправильно обучать и тестировать модель на одном и том же наборе данных?
00
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Прогнозирование временных рядов с ограничениями
00
Вопрос или проблема Я хочу предсказать объем пассажиропотока на авиамаршруте, который подвержен ограничениям по пропускной способности маршрута (т.е. объем пассажиропотока не должен превышать пропускную способность). Существуют ли алгоритмы, которые можно
Data Science
Синтаксис R для преобразования даты в формат SAS date9, при этом дата должна быть числовой, а изменяться должен только формат.
00
Вопрос или проблема Предположим, у меня есть дата, то есть 2017-10-23, и я хочу, чтобы результат выглядел как 23OCT2017 date <- '2017-10-23' date2 <- toupper(format(as.Date('2017-10-23'),'%d%b%Y')) str(date2) chr "23OCT2017" Однако это приводит
Data Science
Может кто-то объяснить, что не так с функцией train этой простой модели линейной регрессии?
00
Вопрос или проблема def predict(self, input): return (self.slope*input) + self.bias def train(self,inputs,targets): N = len(inputs) predictions = np.array([self.predict(input) for input in inputs]) errors = np.array(targets)-predictions self.
Data Science
Почему было бы неправильно вычислять и использовать средние значения тестового набора?
00
Вопрос или проблема У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂 1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?