Разбор и шаблон кода
Мы понимаем, что это творческое задание и часть технологий в этом курсе не
упоминалась (например модели: Text2Speech и Speech2Text). Несмотря на то,
что фокус этого курса не на написании ботов, а про навыки использования LLM моделей и
построение RAG систем, мы все равно не стали ограничивать вас в фантазии и примерах
проектов. Иначе это было бы очень скучно!
Поэтому этот проект мы рекомендуем реализовать в телеграм. Возможно у вас уже есть
навыки написания чат-ботов в телеграм. А если нет, то в интернете полно гайдов, а на
Степике есть несколько курсов. Причем есть даже курсы, где реализуют чат ботов сразу с
помощью асинхронного программирования на python.
Мы предлагаем вам в помощь несколько вещей:
- Реализацию такого ассистента для вдохновения (ссылка на нашего ассистента)
- Ссылка на упрощенную реализацию ассистента (c помощью решений от Open AI и библиотеки telebot). Можно использовать этот код или написать свой, взяв нужные фрагменты.
- Схема и описание базового функционала ассистента ниже
Основные шаги со схемы:
- Голосовое сообщение пользователя с помощью Speech-to-Text модели
переводится в текст.
- На основе текст формируется промпт и подается в LLM компоненту. LLM генерирует
ответ.
- Сгенерированный текст передается в Speech-to-Text модель. На выходе
получется голосое сообщение для отправки.
Шаги по улучшению работы ассистента:
- Для контекста можно добавить в промпт предыдущие 5-7 сообщений (это будет short-time memory)
- Для реализации long-time memory можно добавить семантический поиск по истории сообщений (RAG система)
- Для улучшения качества можно реализовать LLM агента, а не просто LLM + промпт