Stwórz własne AI. Jak od podstaw zbudować duży model językowy Łódź

Duże modele językowe przestały już być szokującą nowinką technologiczną. Dziś są używane do najróżniejszych celów, a lista ich rzeczywistych i potencjalnych zastosowań stale się wydłuża. A to oznacza, że programiści, inżynierowie i architekci muszą dogłębnie rozumieć zasady działania LLM, a także …

od 57,25 Najbliżej: 4,9 km

Liczba ofert: 1

Oferta sklepu

Opis

Duże modele językowe przestały już być szokującą nowinką technologiczną. Dziś są używane do najróżniejszych celów, a lista ich rzeczywistych i potencjalnych zastosowań stale się wydłuża. A to oznacza, że programiści, inżynierowie i architekci muszą dogłębnie rozumieć zasady działania LLM, a także techniki ich budowania. Najbardziej przystępne i kompleksowe wyjaśnienie modeli językowych! Cameron Wolfe, starszy specjalista do spraw AI, Netflix W tej unikalnej książce znajdziesz kompleksowe omówienie procesu tworzenia LLM, od pracy z zestawami danych po implementację architektury modelu, wstępne szkolenie na nieoznakowanych danych i dostrajanie do określonych zadań. Bez korzystania z gotowych bibliotek LLM samodzielnie zbudujesz podstawowy model, przekształcisz go w klasyfikator tekstu, a ostatecznie stworzysz chatbota, który będzie wykonywał Twoje polecenia. I co najważniejsze ... naprawdę zrozumiesz, jak działa model, w końcu będziesz jego twórcą! Kompletne, aktualne opracowanie. Gorąco polecam! dr Vahid Mirjalili, starszy danolog, FM Global Z tą książką: zaprojektujesz i zbudujesz funkcjonujący model LLM nauczysz się korzystać ze wstępnie wyuczonych wag skonstruujesz kompletny potok szkoleniowy dostosujesz model LLM do zadań klasyfikacji tekstu stworzysz model LLM zdolny do wykonywania przekazywanych mu instrukcji Niezwykle inspirująca pozycja! Benjamin Muskalla, starszy inżynier, GitHub Zbuduj AI ... niech przemówi Twoim kodem! Spis treści: Przedmowa Podziękowania O tej książce O autorze 1. Czym są duże modele językowe? 1.1. Czym jest model LLM? 1.2. Zastosowania modeli LLM 1.3. Etapy tworzenia modeli LLM i korzystania z nich 1.4. Wprowadzenie do architektury transformerów 1.5. Wykorzystanie dużych zbiorów danych 1.6. Szczegóły architektury modeli GPT 1.7. Tworzenie dużego modelu językowego Podsumowanie 2. Praca z danymi tekstowymi 2.1. Czym są osadzenia słów? 2.2. Tokenizacja tekstu 2.3. Konwersja tokenów na identyfikatory 2.4. Dodawanie specjalnych tokenów kontekstowych 2.5. Kodowanie par bajtów 2.6. Próbkowanie danych z oknem przesuwnym 2.7. Tworzenie osadzeń tokenów 2.8. Kodowanie pozycji słów Podsumowanie 3. Kodowanie mechanizmów uwagi 3.1. Problem z modelowaniem długich sekwencji 3.2. Przechwytywanie zależności między danymi za pomocą mechanizmów uwagi 3.3. Zwracanie uwagi na różne części danych wejściowych przez mechanizm samouwagi 3.3.1. Prosty mechanizm samouwagi bez trenowalnych wag 3.3.2. Obliczanie wag uwagi dla wszystkich tokenów wejściowych 3.4. Implementacja mechanizmu samouwagi z trenowalnymi wagami 3.4.1. Obliczanie wag uwagi krok po kroku 3.4.2. Implementacja kompaktowej klasy samouwagi w Pythonie 3.5. Ukrywanie przyszłych słów dzięki zastosowaniu uwagi przyczynowej 3.5.1. Wykorzystanie maski uwagi przyczynowej 3.5.2. Maskowanie dodatkowych wag uwagi z użyciem dropoutu 3.5.3. Implementacja zwięzłej klasy przyczynowej uwagi 3.6. Rozszerzenie uwagi jednogłowicowej na wielogłowicową 3.6.1. Utworzenie stosu wielu jednogłowicowych warstw uwagi 3.6.2. Implementacja uwagi wielogłowicowej z podziałem wag Podsumowanie 4. Implementacja od podstaw modelu GPT do generowania tekstu 4.1. Kodowanie architektury LLM 4.2. Normalizacja warstwowa aktywacji 4.3. Implementacja sieci ze sprzężeniem w przód z aktywacjami GELU 4.4. Dodawanie połączeń skrótowych 4.5. Łączenie warstw uwagi i warstw liniowych w bloku transformera 4.6. Kodowanie modelu GPT 4.7. Generowanie tekstu Podsumowanie 5. Wstępne szkolenie na nieoznakowanych danych 5.1. Ocena generatywnych modeli tekstowych 5.1.1. Używanie modelu GPT do generowania tekstu 5.1.2. Obliczanie strat związanych z generowaniem tekstu 5.1.3. Obliczanie strat w zestawie szkoleniowym i walidacyjnym 5.2. Szkolenie modelu LLM 5.3. Strategie dekodowania w celu zarządzania losowością 5.3.1. Skalowanie temperaturą 5.3.2. Próbkowanie top-k 5.3.3. Modyfikacja funkcji generowania tekstu 5.4. Wczytywanie i zapisywanie wag modeli z użyciem frameworka PyTorch 5.5. Ładowanie wstępnie przeszkolonych wag z modelu OpenAI Podsumowanie 6. Dostrajanie modelu LLM do zadań klasyfikacji 6.1. Różne kategorie dostrajania 6.2. Przygotowanie zbioru danych 6.3. Tworzenie mechanizmów ładujących dane 6.4. Inicjalizacja modelu z użyciem wag wstępnie przeszkolonego modelu 6.5. Dodawanie nagłówka klasyfikacji 6.6. Obliczanie straty i dokładności klasyfikacji 6.7. Dostrajanie modelu na danych nadzorowanych 6.8. Wykorzystanie modelu LLM jako klasyfikatora spamu Podsumowanie 7. Dostrajanie modelu LLM do zadań wykonywania instrukcji 7.1. Wprowadzenie do dostrajania do wykonywania instrukcji 7.2. Przygotowanie zbioru danych do nadzorowanego dostrajania pod kątem wykonywania instrukcji 7.3. Organizowanie danych w partie szkoleniowe 7.4. Tworzenie mechanizmów ładujących dane dla zbioru danych instrukcji 7.5. Ładowanie wstępnie przeszkolonego modelu LLM 7.6. Dostrajanie modeli LLM do zadań wykonywania instrukcji 7.7. Wyodrębnianie i zapisywanie odpowiedzi 7.8. Ocena dostrojonego modelu LLM 7.9. Wnioski 7.9.1. Co dalej? 7.9.2. Bądź na bieżąco w szybko zmieniającej się dziedzinie 7.9.3. Na koniec Podsumowanie Dodatek A Wprowadzenie w tematykę frameworka PyTorch Dodatek B Bibliografia i lektura uzupełniająca Dodatek C Rozwiązania ćwiczeń Dodatek D Usprawnianie pętli szkoleniowej Dodatek E Skuteczne dostrajanie parametrów za pomocą LoRA O autorze: Dr Sebastian Raschka jest badaczem i autorem bestsellerowych książek. Pracuje w Lightning AI, gdzie implementuje i szkoli modele LLM. Wcześniej był adiunktem na University of Wisconsin-Madison, zajmował się między innymi badaniami nad uczeniem głębokim. Jest znany z praktycznego podejścia i klarownego wyjaśniania zaawansowanych koncepcji inżynierii.

Specyfikacja

Podstawowe informacje

Autor
  • Sebastian Raschka
Wybrane wydawnictwa
  • Helion
Okładka
  • Miękka
Rok wydania
  • 2025
Ilość stron
  • 352
Tematyka
  • Programowanie
ISBN
  • 9788328924970