1.1 🏁 Как правильно входить в курс

📚 Глоссарий

Список терминов, чтобы общаться на одном языке.

  • 🧠 💻 LLM, Large Language Model, Большая Языковая Модель, БЯМ - языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.
  • 🤖 💬 GPT (Generative Pre-trained Transformer) - генеративный предварительно обученный трансформер, разработанный компанией OpenAI. GPT является одной из самых популярных и мощных языковых моделей, способных генерировать текст на основе предоставленного контекста.
  • 💬 🤝 ChatGPT - чат-бот, построенный на основе GPT. ChatGPT способен вести натуральные диалоги с пользователями, что делает его гибким инструментом для различных сценариев коммуникации.
  • 🔓 🔬 Open source LLM models - модели, которые были разработаны и предоставлены с открытым доступом к их исходному коду и параметрам обучения. Можно свободно изучать, использовать и модифицировать эти модели в своих собственных проектах.
  • 🔁 🔄 Fine-Tuning, файн-тюнинг - Процесс дообучения предварительно обученной языковой модели на специфических данных для улучшения ее производительности в конкретной задаче.
  • 📝 🤔 Prompt, промпт - фраза, вопрос или инструкция, которую пользователь предоставляет языковой модели. От правильного промпта зависит то, насколько релевантной будет информация на выходе.
  • 📘 💡Knowledge Base, База знаний - структурированное хранилище информации, которое содержит факты, данные, и другую сущность информации о различных темах или предметных областях. Базы знаний могут быть использованы для обогащения ответов и информации, генерируемой языковой моделью.
  • 🔠 -> 🔢 Embedding, эмбеддинг - векторное представление слова, фразы, или другой единицы текста в виде числового вектора в многомерном пространстве
  • 🖥️ 🔄 API (Application Programming Interface) - Набор методов и функций, позволяющих взаимодействовать с языковой моделью из других программ или приложений.
  • 🤖 -> 🙍‍♂️AGI (Artificial General Intelligence) - Общий искусственный интеллект - это уровень ИИ, при котором машины обладают способностью обучаться, понимать, и выполнять широкий спектр задач, аналогично человеческому интеллекту.
  • 🔠 Токен (Token) - минимальная единица текста, например, слово, символ, или часть слова. Токены используются для разделения и структурирования текста на более мелкие части, чтобы модель могла его понимать и обрабатывать.
  • 📖 Окно контекста (Context Window) - фиксированное количество токенов, которые модель способна проанализировать перед генерацией текста.
  • 🛠️ Пет-проект (Pet Project) - Это небольшой проект, который делает один человек или небольшая команда, часто в качестве развития навыков, как хобби или для удовлетворения личного интереса.
  • 🏠 Домен - конкретная предметная область, тематика или область знаний, в которой модель может быть наилучшим образом применена.
  • Инференс -  процесс применения обученной модели для выполнения предсказаний или классификации новых данных. После того как модель обучена на основе тренировочных данных, она может быть использована для предсказаний на новых данных, которые модель ранее не видела.
  • 🗂 Датасет — это структурированная коллекция данных, которая обычно организована в виде таблицы, где строки представляют собой записи (объекты), а столбцы — атрибуты (характеристики) этих записей. Датасеты могут содержать различные типы данных, такие как числовые, текстовые, временные и категориальные. Например, Excel - таблица.

 

💬 Какие термины еще остаются непонятными? Пиши в комментарии к этому степу😊


инференс

@Alisa_Shneyder, добавили)

@Alisa_Shneyder

@Эдуард_Парфенов, добавили

"языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя"

Там всё-таки не обучение с без учителем, а решается задача языкового моделирования либо последовательно (по предыдущим словам предсказывают следующее) либо "маскированная", когда из текста случайно убираются токены и модель учится их предсказывать. То есть это всё-таки размеченные данные, но по сути полученные бесплатно. 

Все понятно