language-model - ответы на вопросы

Data Science

Почему в общем случае значение температуры 0.7 является значением по умолчанию для LLMs?

00

Вопрос или проблема Я недавно прочитал много документации и статей о крупных языковых моделях (LLMs) и пришел к выводу, что 0.7 чаще всего является значением по умолчанию для параметра температуры. Ниже представлены несколько примеров, где значение по умолчанию либо 0.

Data Science

Как улучшить мою NLP-модель с несбалансированными данными?

00

Вопрос или проблема Я хочу классифицировать здоровье пациента как вероятность прогноза и получить 10 самых больных пациентов в больнице. У меня есть заметки о состоянии пациента, медицинские заметки, заметки о диагнозах и лабораторные заметки за каждый день.

Data Science

Почему мы хотим максимизировать среднюю логарифмическую вероятность в нейронных языковых моделях?

00

Вопрос или проблема В настоящее время я пытаюсь понять фреймворк Paragraph Vector, читая статью “Распределенное представление предложений и документов” автора Куока Ле и Томаса Миколова, но у меня возникают трудности с пониманием формального

Data Science

Как на самом деле рассчитываются обученные латентные массивы для перцептивного ресемплера в модели “Визуально-языковой модели Flamingo” DeepMind? Какая техника используется?

00

Вопрос или проблема В «Фламинго: визуальная языковая модель для обучения с небольшим количеством примеров» (Alayrac et al., 2022) https://arxiv.org/abs/2204.14198 DeepMind использует «обучаемые латентные запросы» в своем «Персевер ресемплере», чтобы гарантировать

Data Science

Как выбрать идеальную предварительно обученную модель для тонкой настройки?

00

Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!

Data Science

Можем ли мы обучить модель Dolly v-2 на большом объеме общего неразмеченного текста?

00

Вопрос или проблема Я знаком с концепциями машинного обучения и глубокого обучения и посмотрел на Dolly, а также запустил предобученную модель на ноутбуке Jupyter lab в Databricks. Однако, когда я смотрю на формат их тренировочного набора данных, все

Data Science

Как K и V извлекаются из выходных данных энкодера в трансформере?

00

Вопрос или проблема Я пытался понять архитектуру трансформера из работы “Всё, что вам нужно — это внимание”. Работа показывает следующую архитектуру трансформера: Как $K$ и $V$ извлекаются из выходных данных кодировщика размерности $512$ (которые

Data Science

Оптимальная настройка ввода для классификации текста на уровне символов с использованием RNN

00

Вопрос или проблема Я хочу классифицировать текстовые образцы длиной 500 символов на предмет того, похожи ли они на естественный язык, с помощью рекуррентной нейронной сети на уровне символов. Я не уверен, как лучше всего подавать входные данные в РНН.

Data Science

Совершенные пакеты Python, которые могут оценивать сходство языков

00

Вопрос или проблема Я пытаюсь оценить вероятность генерации конкретного предложения из большого набора предложений. Для этого я начинаю с простого подхода: обучения пользовательской n-gram языковой модели и расчета значений перплексии для списка предложений.

Data Science

Тонко настроенная MLM на основе RoBERTa не улучшает производительность.

00

Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2

Data Science

Как предсказать настроение сущностей из твита?

00

Вопрос или проблема У меня есть файл JSON (tweets.json), который содержит твиты (предложения) вместе с именем автора. Цель 1: Извлечь самые частые сущности из твитов. Цель 2: Узнать настроение/полярность каждого автора по отношению к каждой из сущностей.

Data Science

Почему в сглаживании n-грам модели в NLP мы не учитываем токены начала и конца предложения?

00

Вопрос или проблема Изучая сглаживание Add-1, я заметил, что мы каким-то образом добавляем 1 к каждому слову в нашем словаре, но не учитываем начало и конец предложения как два слова в словаре. Позвольте мне привести пример для объяснения.

Data Science

Переходное обучение между языковой моделью и классификацией

00

Вопрос или проблема Следуя этой лекции fast.ai, я пытаюсь понять механизм переноса обучения (Transfer Learning) в обработке естественного языка (NLP) от общего языкового моделирования (LM) к задаче классификации. Что именно берется из обучения языковой модели?