Qwen3: Nová éra otvorených jazykových modelov

Home
Qwen3: Nová éra otvorených jazykových modelov

Qwen3: Nová éra otvorených jazykových modelov

30/04/2025 Slovensko.ai

47 Videní

Spoločnosť Alibaba Cloud nedávno predstavila najnovší prírastok do svojej rodiny veľkých jazykových modelov – Qwen3. Táto séria modelov prináša významné vylepšenia v oblasti spracovania prirodzeného jazyka, logického uvažovania a viacjazyčnej podpory.

Dva režimy myslenia: Flexibilita podľa potreby

Qwen3 zavádza inovatívny prístup k spracovaniu úloh prostredníctvom dvoch režimov:

Režim uvažovania: Model postupne analyzuje a vyvodzuje závery, čo je ideálne pre komplexné problémy vyžadujúce hlbšiu analýzu.
Režim bez uvažovania: Model poskytuje rýchle odpovede bez hlbšej analýzy, vhodné pre jednoduché otázky, kde je dôležitá rýchlosť.

Táto flexibilita umožňuje používateľom prispôsobiť správanie modelu konkrétnym potrebám, čím sa dosahuje optimálna rovnováha medzi presnosťou a rýchlosťou.

Podpora viac ako 100 jazykov

Qwen3 podporuje viac ako 100 jazykov a dialektov, vrátane slovenčiny, češtiny, angličtiny, čínštiny, hindčiny a mnohých ďalších. Táto rozsiahla viacjazyčná podpora umožňuje široké využitie modelu v rôznych jazykových prostrediach a aplikáciách.

Široká škála modelov pre rôzne potreby

Séria Qwen3 zahŕňa osem modelov rôznych veľkostí, od kompaktných až po veľmi rozsiahle:

Husté modely: 0.6B, 1.7B, 4B, 8B, 14B, 32B
MoE (Mixture of Experts) modely: 30B-A3B, 235B-A22B

Tieto modely sú navrhnuté tak, aby vyhovovali rôznym výpočtovým požiadavkám a aplikáciám, od mobilných zariadení až po výkonné servery.

Výkonnosť a dostupnosť

Vlajkový model Qwen3-235B-A22B dosahuje konkurenčné výsledky v benchmarkoch zameraných na programovanie, matematiku a všeobecné schopnosti, porovnateľné s modelmi ako DeepSeek-R1, o1, o3-mini, Grok-3 a Gemini-2.5-Pro. Menší MoE model Qwen3-30B-A3B prekonáva QwQ-32B, aj keď má desaťkrát menej aktívnych parametrov. Dokonca aj kompaktný model Qwen3-4B dosahuje výkon porovnateľný s Qwen2.5-72B-Instruct.

Všetky modely Qwen3 sú dostupné pod licenciou Apache 2.0 a možno ich nájsť na platformách ako Hugging Face, ModelScope a Kaggle. Na integráciu do vlastných aplikácií sú odporúčané nástroje ako SGLang, vLLM, Ollama, LMStudio, MLX, llama.cpp a KTransformers.

Vylepšený tréningový proces

Modely Qwen3 boli trénované na 36 biliónoch tokenov v 119 jazykoch, čo predstavuje trojnásobné rozšírenie jazykovej pokrytia oproti predchádzajúcej verzii Qwen2.5. Tréning prebiehal v troch fázach:

Základné jazykové modelovanie a získavanie všeobecných vedomostí
Zlepšovanie schopností v oblasti STEM, programovania a logického uvažovania
Zvýšenie schopnosti spracovania dlhých kontextov až do 128 000 tokenov

Tieto vylepšenia vedú k výraznému zlepšeniu stability a celkového výkonu modelov.

Záver

Séria Qwen3 predstavuje významný krok vpred v oblasti otvorených jazykových modelov. Vďaka svojej flexibilite, výkonnosti a širokej dostupnosti ponúka vývojárom a výskumníkom nástroje na tvorbu inovatívnych riešení v rôznych oblastiach.

👉 Sleduj slovensko.ai pre ďalšie novinky zo sveta umelej inteligencie alebo vyskúšaj naše praktické AI kurzy, ktoré ti ukážu, ako efektívne pracovať s modernými nástrojmi!

Qwen3: Nová éra otvorených jazykových modelov

Qwen3: Nová éra otvorených jazykových modelov