Data Science
Почему в общем случае значение температуры 0.7 является значением по умолчанию для LLMs?
00
Вопрос или проблема Я недавно прочитал много документации и статей о крупных языковых моделях (LLMs) и пришел к выводу, что 0.7 чаще всего является значением по умолчанию для параметра температуры. Ниже представлены несколько примеров, где значение по умолчанию либо 0.
Data Science
Как улучшить мою NLP-модель с несбалансированными данными?
00
Вопрос или проблема Я хочу классифицировать здоровье пациента как вероятность прогноза и получить 10 самых больных пациентов в больнице. У меня есть заметки о состоянии пациента, медицинские заметки, заметки о диагнозах и лабораторные заметки за каждый день.
Data Science
Почему мы хотим максимизировать среднюю логарифмическую вероятность в нейронных языковых моделях?
00
Вопрос или проблема В настоящее время я пытаюсь понять фреймворк Paragraph Vector, читая статью “Распределенное представление предложений и документов” автора Куока Ле и Томаса Миколова, но у меня возникают трудности с пониманием формального
Data Science
Как на самом деле рассчитываются обученные латентные массивы для перцептивного ресемплера в модели “Визуально-языковой модели Flamingo” DeepMind? Какая техника используется?
00
Вопрос или проблема В «Фламинго: визуальная языковая модель для обучения с небольшим количеством примеров» (Alayrac et al., 2022) https://arxiv.org/abs/2204.14198 DeepMind использует «обучаемые латентные запросы» в своем «Персевер ресемплере», чтобы гарантировать
Data Science
Как выбрать идеальную предварительно обученную модель для тонкой настройки?
00
Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!
Data Science
Можем ли мы обучить модель Dolly v-2 на большом объеме общего неразмеченного текста?
00
Вопрос или проблема Я знаком с концепциями машинного обучения и глубокого обучения и посмотрел на Dolly, а также запустил предобученную модель на ноутбуке Jupyter lab в Databricks. Однако, когда я смотрю на формат их тренировочного набора данных, все
Data Science
Как K и V извлекаются из выходных данных энкодера в трансформере?
00
Вопрос или проблема Я пытался понять архитектуру трансформера из работы “Всё, что вам нужно — это внимание”. Работа показывает следующую архитектуру трансформера: Как $K$ и $V$ извлекаются из выходных данных кодировщика размерности $512$ (которые
Data Science
Оптимальная настройка ввода для классификации текста на уровне символов с использованием RNN
00
Вопрос или проблема Я хочу классифицировать текстовые образцы длиной 500 символов на предмет того, похожи ли они на естественный язык, с помощью рекуррентной нейронной сети на уровне символов. Я не уверен, как лучше всего подавать входные данные в РНН.
Data Science
Совершенные пакеты Python, которые могут оценивать сходство языков
00
Вопрос или проблема Я пытаюсь оценить вероятность генерации конкретного предложения из большого набора предложений. Для этого я начинаю с простого подхода: обучения пользовательской n-gram языковой модели и расчета значений перплексии для списка предложений.
Data Science
Тонко настроенная MLM на основе RoBERTa не улучшает производительность.
00
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Как предсказать настроение сущностей из твита?
00
Вопрос или проблема У меня есть файл JSON (tweets.json), который содержит твиты (предложения) вместе с именем автора. Цель 1: Извлечь самые частые сущности из твитов. Цель 2: Узнать настроение/полярность каждого автора по отношению к каждой из сущностей.
Data Science
Почему в сглаживании n-грам модели в NLP мы не учитываем токены начала и конца предложения?
00
Вопрос или проблема Изучая сглаживание Add-1, я заметил, что мы каким-то образом добавляем 1 к каждому слову в нашем словаре, но не учитываем начало и конец предложения как два слова в словаре. Позвольте мне привести пример для объяснения.
Data Science
Переходное обучение между языковой моделью и классификацией
00
Вопрос или проблема Следуя этой лекции fast.ai, я пытаюсь понять механизм переноса обучения (Transfer Learning) в обработке естественного языка (NLP) от общего языкового моделирования (LM) к задаче классификации. Что именно берется из обучения языковой модели?