Inżynieria dużych modeli językowych. Podręcznik projektowania, trenowania i wdrażania LLM

Lista Ofert

Opis

Wraz ze wzrostem popularności dużych modeli językowych rośnie zapotrzebowanie na specjalistów, którzy potrafią je skutecznie wdrażać w rzeczywistych rozwiązaniach. Inżynieria LLM to szeroki zestaw zadań, wymagający unikalnego połączenia wiedzy z wielu dziedzin. Szczególnie istotne okazuje się tu podejście MLOps, które znacząco zwiększa szanse na sukces w projektach opartych na modelach językowych. Ten obszerny przewodnik pokaże Ci, jak stosować najlepsze praktyki w pracy z LLM. Znajdziesz tu omówienie kluczowych koncepcji, praktyczne techniki i porady ekspertów z zakresu inżynierii danych, dostrajania i oceny modeli, optymalizacji wnioskowania, a także budowania skalowalnych potoków przetwarzania. Krok po kroku prześledzisz, jak zrealizować konkretny produkt, integrując różne aspekty inżynierii LLM i metodologię MLOps. Dowiesz się, jak zbierać i przygotowywać dane, dostrajać modele do specyficznych zastosowań, zwiększać ich wydajność i wdrażać rozwiązania oparte na technice RAG. Najciekawsze zagadnienia: niezawodne potoki danych i zarządzanie cyklem trenowania modeli LLM tworzenie i udoskonalanie modeli językowych w praktyce podejście MLOps - koordynacja komponentów i monitorowanie promptów nadzorowane dostrajanie i ewaluacja modeli wykorzystanie narzędzi chmurowych (na przykład AWS) w skalowalnych wdrożeniach praktyczne zastosowanie techniki retrieval-augmented generation (RAG) Działa? To za mało. Musi działać dobrze! Spis treści: O autorach O korektorze merytorycznym Przedmowa Wprowadzenie Rozdział 1. Architektura i koncepcja projektu LLM Twin Koncepcja kryjąca się za aplikacją LLM Twin Czym jest projekt LLM Twin? Dlaczego sensowne jest tworzenie projektu LLM Twin? Dlaczego w omawianym celu nie można użyć ChatGPT (lub podobnego chatbota)? Planowanie produktu o minimalnej niezbędnej funkcjonalności dla projektu LLM Twin Czym jest produkt o minimalnej niezbędnej funkcjonalności? Zdefiniowanie produktu o minimalnej niezbędnej funkcjonalności w projekcie LLM Twin Budowanie systemu uczenia maszynowego z wykorzystaniem potoków cech, trenowania i wnioskowania Aspekty, jakie należy uwzględnić podczas budowania systemów uczenia maszynowego Problem z poprzednimi rozwiązaniami Rozwiązanie - potoki uczenia maszynowego dla systemów uczenia maszynowego Zalety architektury FTI Opracowanie architektury systemu dla projektu LLM Twin Szczegóły techniczne dotyczące infrastruktury projektu LLM Twin Jak opracować architekturę LLM Twin za pomocą projektu opartego na potoku FTI? Kilka uwag końcowych na temat projektu FTI i architektury LLM Twin Podsumowanie Źródła Rozdział 2. Narzędzia i ich instalacja Ekosystem Pythona i przygotowanie projektu Poetry - menedżer zależności i środowisk wirtualnych Poe the Poet - narzędzie do wykonywania zadań Narzędzia MLOps i LLMOps Hugging Face - rejestr modelu ZenML - oprogramowanie koordynujące, artefakty i metadane Comet - oprogramowanie do śledzenia eksperymentu Opik - monitorowanie promptu Bazy danych do przechowywania danych niestrukturyzowanych i wektorowych MongoDB - baza danych typu NoSQL Qdrant - wektorowa baza danych Przygotowanie do użycia chmury AWS Utworzenie konta AWS i klucza dostępu oraz przygotowanie narzędzia powłoki do pracy z usługą AWS SageMaker - obliczenia związane z trenowaniem i wnioskowaniem Dlaczego SageMaker? Podsumowanie Źródła Rozdział 3. Inżynieria danych Opracowanie potoku pobierania danych do projektu LLM Twin Implementacja potoku pobierania danych do projektu LLM Twin Potok ZenML i kroki Dyspozytor - jak zainicjalizować odpowiedni crawler? Crawlery Dokumenty hurtowni danych typu NoSQL Umieszczanie nieprzetworzonych danych bezpośrednio w hurtowni danych Rozwiązywanie problemów Podsumowanie Źródła Rozdział 4. Potok wykorzystujący technikę RAG Wyjaśnienie techniki RAG Dlaczego warto używać techniki RAG? Zwykły framework systemu RAG Czym są osadzenia? Więcej informacji na temat wektorowych baz danych Ogólne omówienie zaawansowanej techniki RAG Przed pobraniem danych Pobieranie danych Po pobraniu danych Prezentacja architektury techniki RAG wykorzystanej w projekcie LLM Twin Problem, który chcemy rozwiązać Magazyn danych cech Skąd pochodzą nieprzetworzone dane? Opracowanie architektury potoku cech techniki RAG Implementacja potoku techniki RAG w projekcie LLM Twin Klasa Settings Potok ZenML i kroki Encje dziedziny Pydantic Warstwa dyspozytora Procedury obsługi Podsumowanie Źródła Rozdział 5. Nadzorowane dostrajanie modelu Tworzenie wysokiej jakości zbioru danych instrukcji Ogólny framework rozwiązania Gromadzenie danych Filtrowanie oparte na regułach Eliminacja duplikatów Dekontaminacja danych Ocena jakości danych Eksploracja danych Generowanie danych Uzupełnienie danych Tworzenie własnego zbioru danych instrukcji Nadzorowane dostrajanie modelu i związanych z nim technik Kiedy należy dostrajać model? Formaty zbiorów danych instrukcji Szablony czatu Techniki Parameter-Efficient Fine-Tuning (PEFT) Trenowanie parametrów Dostrajanie w praktyce Podsumowanie Źródła Rozdział 6. Dostrajanie modelu z uwzględnieniem preferencji użytkowników Poznanie zbiorów danych preferencji Dane preferencji Generowanie danych i ich ocena Samodzielne tworzenie zbioru danych preferencji Uwzględnienie preferencji Uczenie przez wzmocnienie na podstawie opinii użytkowników Bezpośrednia optymalizacja preferencji Implementacja bezpośredniej optymalizacji preferencji Podsumowanie Źródła Rozdział 7. Ocena dużych modeli językowych Ocena modelu Porównanie oceny uczenia maszynowego i oceny dużego modelu językowego Ocena dużego modelu językowego ogólnego przeznaczenia Ocena dużego modelu językowego związanego z dziedziną Ocena dużego modelu językowego związanego z zadaniem Ocena systemu RAG Ragas ARES Ocena modelu TwinLlama-3.1-8B Generowanie odpowiedzi Ocena odpowiedzi Analiza wyników Podsumowanie Źródła Rozdział 8. Optymalizacja wnioskowania Strategie optymalizacji modelu Bufor KV Przetwarzanie ciągłymi partiami Dekodowanie spekulatywne Zoptymalizowane mechanizmy uwagi Równoległość modelu Równoległość danych Równoległość potoku Równoległość tensora Łączenie różnych technik Kwantyzacja modelu Wprowadzenie do kwantyzacji Kwantyzacja za pomocą GGUF i llama.cpp Kwantyzacja za pomocą GPTQ i EXL2 Inne techniki kwantyzacji Podsumowanie Źródła Rozdział 9. Potok wnioskowania wykorzystujący technikę RAG Potok wnioskowania RAG w modelu Twin Zaawansowane techniki RAG w modelu Twin Zaawansowane techniki optymalizacji etapu przed pobieraniem danych w systemie RAG - rozbudowa zapytania i samozapytanie Zaawansowane techniki optymalizacji etapu pobierania danych w systemie RAG - filtrowane wyszukiwanie wektorowe Zaawansowane techniki optymalizacji etapu po pobieraniu danych w systemie RAG - ponowne przygotowanie rankingu Implementacja potoku wnioskowania RAG w modelu Twin Implementacja modułu pobierania danych Połączenie wszystkiego w całość w potoku wnioskowania w systemie RAG Podsumowanie Źródła Rozdział 10. Wdrożenie potoku wnioskowania Kryteria wyboru rodzaju wdrożenia Przepustowość i opóźnienie Dane Infrastruktura Różne typy wdrożeń potoku wnioskowania Wnioskowanie online w czasie rzeczywistym Wnioskowanie asynchroniczne Przekształcanie partiami w trybie offline Architektura monolityczna i architektura mikrousług w infrastrukturze udostępniania modelu Architektura monolityczna Architektura mikrousług Wybór między architekturą monolityczną i architekturą mikrousług Strategia wdrażania potoku wnioskowania projektu LLM Twin Potok wnioskowania i potok trenowania Wdrażanie usługi LLM Twin Implementowanie mikrousługi dużego modelu językowego za pomocą AWS SageMakera Budowanie mikrousługi biznesowej za pomocą FastAPI Automatyczne skalowanie możliwości w celu obsługi nagłego wzrostu poziomu użycia usługi Rejestrowanie skalowanego celu Tworzenie polityki skalowania Wartości minimalna i maksymalna podczas skalowania Okres oczekiwania Podsumowanie Źródła Rozdział 11. MLOps i LLMOps Ścieżka prowadząca do LLMOps - korzenie w podejściach DevOps i MLOps DevOps MLOps LLMOps Wdrożenie w chmurze potoków projektu LLM Twin Elementy infrastruktury Konfiguracja bazy danych MongoDB Konfiguracja bazy danych Qdrant Konfiguracja chmury ZenML Dodanie LLMOps do projektu LLM Twin Przepływ pracy w potoku CI/CD projektu LLM Twin GitHub Actions Potok CI Potok CD Testowanie potoku CI/CD Potok CT Monitorowanie promptu Ostrzeganie Podsumowanie Źródła Dodatek A. Reguły MLOps

Rozwiń Zwiń

Specyfikacja

Podstawowe informacje

Autor	Paul Iusztin, Maxime Labonne, Julien Chaumond (Foreword), Hamza Tahir (Foreword)
Wybrane wydawnictwa	Helion
Okładka	Miękka
Rok wydania	2025
Ilość stron	440
Tematyka	Programowanie
ISBN	9788328925304

Inżynieria dużych modeli językowych. Podręcznik projektowania, trenowania i wdrażania LLM Kraśnik

Lista Ofert

Opis

Specyfikacja

Podstawowe informacje