Data Science
Сравнение двух изображений и отображение разницы в новом изображении?
00
Вопрос или проблема Я хотел бы сравнить изображения двух веб-страниц, используя техники компьютерного зрения. Покажите, какие части не уникальны при сравнении обоих изображений. Какая часть изображения 1 отсутствует в изображении 2, и наоборот.
Data Science
Какой “двоичный выбор” существует в BM25?
00
Вопрос или проблема Я читал Главу 14 Ответы на вопросы, Поиск информации и RAG книги Юрафски, конкретно раздел о оценке документов, где упоминался Okapi BM25. Я понял предыдущее вычисление и объяснение tf-idf, но не понимаю эту фразу, выделенную магентовым цветом. …
Data Science
Кумулятивная сумма с начальным значением, отличным от 0, в Pandas
00
Вопрос или проблема У меня есть следующий датафрейм df атлетов (индексированный по Athlete_ID) и их рангу (индексированный по Rank), вот слайд датафрейма с конкретным атлетом: Rank Athlete_ID Date 13 143 25/4/2021 1 143 5/4/2021 6 143 24/2/2021 11 143
Data Science
Модели сервисного обслуживания на основе правил и предсказательного обслуживания
00
Вопрос или проблема У меня есть данные для насосов, которые имеют один или несколько датчиков для записи давления воздуха. Помимо sensor_id и timestamp, есть три числовых переменных: current_air_pressure, min_air_pressure и max_air_pressure, и показания
Data Science
Подход скользящего окна с использованием SVR и LightGBM
00
Вопрос или проблема Я работаю над прогнозированием многомерного временного ряда, используя несколько алгоритмов машинного обучения (нейронные сети, метод опорных векторов и алгоритмы градиентного бустинга). Мне нужно измерить производительность каждой модели.
Data Science
Как на самом деле рассчитываются обученные латентные массивы для перцептивного ресемплера в модели “Визуально-языковой модели Flamingo” DeepMind? Какая техника используется?
00
Вопрос или проблема В «Фламинго: визуальная языковая модель для обучения с небольшим количеством примеров» (Alayrac et al., 2022) https://arxiv.org/abs/2204.14198 DeepMind использует «обучаемые латентные запросы» в своем «Персевер ресемплере», чтобы гарантировать
Data Science
Как учитывается маскирование отступов в головах внимания трансформера?
00
Вопрос или проблема В чисто образовательных целях моя цель – реализовать базовую архитектуру Transformer с нуля. До сих пор я сосредоточился на энкодере для классификационных задач и предположил, что все образцы в пакете имеют одинаковую длину.
Data Science
corr() выдает ошибку. Пожалуйста, помогите разобраться с этой проблемой и скажите, в чем заключается эта ошибка.
00
Вопрос или проблема Когда я пытаюсь выполнить sns.heatmap(df.corr(),annot=True) этот код в своем Jupyter ноутбуке, возникает эта ошибка. Я не понимаю, в чем проблема. Пожалуйста, помогите мне. Для df.corr() вам нужно передать значения типа float/целое число вместо строки.
Data Science
1D ‘Кластеризация’
00
Вопрос или проблема Я работаю над исследовательской работой о надежной схеме агрегации федеративного обучения для защиты от атакующих. У меня есть 1D массив оценок доверия для клиентов, и мне нужно сгруппировать их, чтобы выявить честных клиентов (с наивысшими оценками).
Data Science
Моделирование инфляции цен на жилье
00
Вопрос или проблема У меня есть набор данных о ценах на дома и соответствующих характеристиках (комнаты, квадратные метры и т.д.). Дополнительной характеристикой является дата продажи дома. Цель состоит в том, чтобы создать модель, которая могла бы оценить
Data Science
Как рассчитать истинно положительные, истинно отрицательные, ложноположительные, ложноотрицательные и положительные с помощью классификатора Байеса с нуля.
00
Вопрос или проблема Я работаю над реализацией алгоритма классификации Наивного Байеса. У меня есть метод def prob_continous_value, который должен возвращать функцию плотности вероятности для атрибута, заданного классовым атрибутом.
Data Science
Нужен совет по кросс-валидации для получения оптимального λ в Лассо.
00
Вопрос или проблема Я относительно новичок в машинном обучении, и любые предложения и исправления кода будут большой помощью. Я использую Lasso для отбора признаков и хочу выбрать лямбда, которая обеспечивает наименьшую ошибку.
Data Science
Как мы можем использовать формулу косинусного сходства на векторе признаков документа без направления?
00
Вопрос или проблема В математике вектор имеет как величину, так и направление. В области Data Science для определения схожести документов мы преобразуем документ в вектор признаков. Затем применяем формулу косинусного угла между вектором признаков исходного и целевого документа.
Data Science
Сегментация клиентов: Должен ли я использовать переменную, представляющую продукт, который непопулярен в наборе данных для кластеризации K-средних?
00
Вопрос или проблема Я работаю с набором данных, который, помимо возраста и дохода клиентов, показывает баланс, который есть у клиента на различных типах банковских счетов: расчетные, акции, инвестиции, сбережения, депозиты, ипотека, кредит и сертификаты.
Data Science
Как разбить значения цвета (категориальные – высокая кардинальность) на основные цвета?
00
Вопрос или проблема У меня есть переменная цвета с значениями для различных товаров электронной коммерции, таких как – оливковый, бирюзовый, синий, зеленый и т.д. Я хочу сгруппировать эти цвета по основным цветовым значениям. Например –
Data Science
Предобработка текста для обнаружения двух слов без разделяющего пробела (или разделённых дефисом).
00
Вопрос или проблема Предположим, у меня есть текстовый корпус с неконсистентно написанными биграммами. Примером может быть “би грам”, “би-грам”, “биграм”. Существует ли какой-либо стандартный метод предварительной обработки
Data Science
Gridsearch XGBoost для ансамбля. Нужно ли включать матрицу предсказаний первого уровня базовых моделей в обучающую выборку?
00
Вопрос или проблема Я не совсем уверен, как мне следует настраивать xgboost, прежде чем использовать его в качестве мета-обучающего в ансамблевом обучении. Должен ли я включать матрицу предсказаний (то есть df, содержащий столбцы результатов предсказаний
Data Science
Elasticsearch + Кластеризация
00
Вопрос или проблема В настоящее время я работаю над проектом, который основывается на кластеризации документов в неопределенное количество кластеров на основе порога схожести (в идеале с использованием косинусного расстояния между векторами tf-idf).
Data Science
Существует ли способ обучить Doc2Vec на корпусе документов и иметь возможность взять новый документ и увидеть, насколько он похож на обученный корпус?
00
Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “
Data Science
Регрессия LSTM RNN: ошибка валидирования нестабильна во время обучения
00
Вопрос или проблема Во время обучения моей нейронной сети я наблюдаю следующее поведение: крайне нестабильные значения потерь на валидации, в то время как потери на обучении steadily уменьшаются. потери на обучении уменьшаются очень медленно (не характерная