Nowy model R1 AI firmy DeepSeek będzie zużywał znacznie mniej energii

Według najnowszych doniesień DeepSeek, firma pochodząca z Chin, która podbiła świat i jest największym konkurentem ChatGPT, może zwiększyć i tak już niskie zużycie energii do znacznie wyższego poziomu. Według doniesień, zaktualizowany model R1 AI aplikacji wykorzystującej sztuczną inteligencję osiągnął poziom, który umożliwia jego uruchomienie na pojedynczym procesorze graficznym. Firma DeepSeek twierdzi, że wprowadzając na rynek model DeepSeek-R1-0528-Qwen3-8B, mniejszą wersję nowego modelu R1, ten model uzyskał lepsze wyniki niż modele o podobnej wielkości w niektórych testach porównawczych.
Oparta na modelu Qwen3-8B, który Alibaba wprowadziła na rynek w maju, mniejsza i udoskonalona wersja R1 uzyskała znacznie lepsze wyniki niż model Gemini 2.5 Flash firmy Google w teście AIME 2025, który składał się z trudnych pytań matematycznych.
Test DeepSeek-R1-0528-Qwen3-8B osiągnął niemal takie same wyniki jak niedawno wydany przez Microsoft model Phi 4 w innym teście umiejętności matematycznych, HMMT.
Tak zwane pomniejszone modele, takie jak DeepSeek-R1-0528-Qwen3-8B, często mają mniejsze możliwości niż ich odpowiedniki w pełnym rozmiarze, ale nadal mogą się wyróżniać wydajnością. Oczywiście najważniejszą zaletą tych wersji jest to, że wymagają znacznie mniejszych zasobów obliczeniowych.
Według platformy chmurowej NodeShift, do działania Qwen3-8B wymaga procesora graficznego (na przykład Nvidia H100) i 40 GB–80 GB pamięci RAM. Gdy porównamy go z pełnowymiarowym nowym R1, zobaczymy, że ten model wymaga około tuzina 80 GB GPU.
DeepSeek-R1-0528-Qwen3-8B jest dostępny na podstawie licencji MIT, co oznacza, że można go wykorzystywać komercyjnie bez ograniczeń. Wielu dystrybutorów, w tym LM Studio, oferuje ten model za pośrednictwem API.
milliyet