5.1 🧩 Open Source модели на замену ChatGPT.

🤝 Поделись удачным опытом!

В этом шаге можно поделиться своими удачными находками моделей с Hugging Face для конкретной задачи.

Примерно по такому алгоритму:

  • Описание задачи кратко - 
  • Название модели (ссылка) - 
  • Какие ресурсы понадобились - 
  • Комментарии, подробное описание, результаты, можно ссылки на код -
ПРИМЕР:

Поиск Open Source модели, с которой бы отработал ноутбук по RAG в GoogleColab.

unsloth/mistral-7b-instruct-v0.2-bnb-4bit

Запускается на бесплатном Colab c GPU

Отрабатывают все ячейки ноутбука, качество не хуже, чем с моделью OpenAI. Если ещё взять opensource модель для эмбеддингов, то можно вообще не расходовать токены.

 

Задание*: Попробуйте подобрать opensource модели для одного или нескольких ноутбуков из предыдущих уроков, чтобы ноутбук мог отработать на бесплатных ресурсах Google Colab и с приемлемым качеством, без сильных галлюцинаций. Поделитесь удачными реализациями в этом стэпе, лучшие находки включим в ноутбуки курса.


Подключил в качестве llm модели из nvidia .

При регистрации (доступно из России) дается 1000 запросов (не токенов) на любые модели. Можно указать корпоративную почту и тогда дается 5000 запросов (на самом деле можно указать любую другую, возможно нужно не с gmail).

Большое разнообразие моделей, есть даже meta/llama-3.1-405b-instruct и nvidia/nemotron-4-340b-instruct

# установка модуля
                !pip install -U --quiet langchain-nvidia-ai-endpoints
                # получение списка моделей и эмбеддеров
                from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings
                from langchain_nvidia_ai_endpoints import ChatNVIDIA
                ChatNVIDIA.get_available_models()
                NVIDIAEmbeddings.get_available_models()
                

Есть хорошая документация на langchain.

Могут возникнуть сложности с промптами и при работе с агентами, но на обычные вопросы отвечает очень хорошо.

Пример использования:

from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings
                from langchain_nvidia_ai_endpoints import ChatNVIDIA
                api_key = 'your_key'
                llm = ChatNVIDIA(model="meta/llama-3.1-405b-instruct",
                                 nvidia_api_key=api_key
                                 )
                embedder = NVIDIAEmbeddings(model='nvidia/nv-embed-v1',
                                            api_key=api_key
                                            )

@Леонид_Саморцев, Спасибо за обзор!

@Леонид_Саморцев, очень хороший ресурс, спасибо.

Жаль только, что ограничение по токенам.

Попробовал TheBloke/saiga_mistral_7b-GGUF восьмибитную для задачи RAG на русских текстах. Бэкенд - llama.cpp
Эмбеддинг: cointegrated/LaBSE-en-ru. С задачей справляется, но иногда немного коверкает русский язык или придумывает новые слова (редко).

На старой 2070 rtx с 8 ГБ работает медленно, на 3060 с 16 Гб вполне резво. Если есть свободные гигабайты, нужно подобрать параметр n_gpu_layers. В принципе и вообще без GPU работает, но очень медленно.

Код здесь: https://github.com/khmelkoff/LLAMA2RASA.git Там попытка интегрировать модель с RASA через FastAPI.

@Igor_Khmelkov, спасибо за наводку, потестим.