Seznam testuje vlastní AI chatovací aplikaci. Oproti ChatGPT má mít navrch v češtině

Seznam testuje vlastní AI chatovací aplikaci. Oproti ChatGPT má mít navrch v češtině

Seznam testuje vlastní AI chatovací aplikaci. Oproti ChatGPT má mít navrch v češtině Zdroj: e15 Martin Janas

Jan Sedlák
Jan Sedlák , Šimon Kačírek
Diskuze (0)

Zahraničním společnostem vyvíjejícím velké jazykové modely (LLM) umělé inteligence (AI) roste v Česku zvučná tuzemská konkurence. Na vývoji vlastních jazykových modelů pracuje již dva roky i Seznam.cz, který AI postupně zapracovává do svých služeb. V současné době navíc začíná testovat vlastní chatovací nástroj.

Svůj velký jazykový model Seznam pojmenoval SeLLMa (vyslovuje se „šelma“, pozn. aut.) a na jeho vývoji pracuje poslední dva roky několik desítek lidí. „Během celého vývoje experimentujeme s modely různých značek a velikostí, které provozujeme přes interní API (aplikační programové rozhraní) na našich službách,“ vysvětluje produktová manažerka Seznamu Diana Hlaváčová.

Současná umělá inteligence Seznamu není celá vytvořená jeho týmem. Společnost využívá základy v podobě otevřených LLM od společností Meta a Mistral s tím, že provádí takzvaný fine-tuning, tedy obohacování modelu o vlastní části a data.

Hlaváčová zároveň přiblížila, kolik do vývoje AI v Seznamu dávají. „V první fázi jsme do výzkumu investovali přes sto milionů korun, další zdroje jsou potřeba ve fázi přechodu modelu pro produkce. Nadále budeme investovat i do samotného produktu. Pokud to s AI myslíte vážně, je potřeba se na významné investice připravit, bez nich to jde jen těžko,“ uvádí.

Nvidia čipy za stamiliony

Seznam si pro trénování a takzvanou inferenci AI, tedy proces rozhodování na základě dat a modelů, kupuje servery s AI čipy od společnosti Nvidia, která je jejich hlavním globálním dodavatelem. I díky tomu se stala nejhodnotnější firmou planety. Seznam uvedl, že vlastní „hodně přes sto Nvidií“. Jejich pořizovací částky nicméně zveřejňovat nechce.

I podle dřívějších informací e15.cz se jedná o stovky čipů, které společnost vlastní. Jsou to zejména modely Nvidia H100, jeden kus vyjde zhruba na 800 tisíc korun. Firma také aktuálně nakupuje novější modely H200, kdy každý stojí asi 900 tisíc korun. Na inferenci používané čipy L4 už jsou levnější, jde o náklad zhruba 60 tisíc korun za kus. I těchto modelů má mít Seznam stovky. Uváděné ceny jsou nicméně pouze orientační, celková pořizovací cena musela jít s největší pravděpodobností do stamilionů korun.

Pro lepší představu toho, jak „chytrý“ je aktuálně velký jazykový model Seznamu, se nabízí porovnání s ChatGPT od americké společnosti OpenAI. „Naším aktuálním cílem je držet krok s ekonomickým standardem GPT-4o mini, který jsme využívali pro prototypování našich aplikací,“ vysvětluje Hlaváčová. Zmiňovaný model GPT-4o mini je jeden z modelů předchozí generace umělé inteligence od OpenAI. Ta nedávno uvedla svou nejnovější verzi GPT-5.

Jednou z hlavních předností „seznamácké“ AI má však být daleko lepší znalost češtiny, v čemž firma vidí velkou přidanou hodnotu. „Je pro nás důležité, aby modely měly sofistikovanou češtinu, včetně dialektů a tak dále. GPT v tom zase tolik neexceluje,“ komentuje Hlaváčová.

Další důležitou vlastností má být přizpůsobení specifickým potřebám produktů, které Seznam nabízí. Ve velké části z nich už umělá inteligence integrovaná je. V e-mailu například pomáhá s generováním předmětu, ve vyhledávání zase nabídne AI sumarizaci, podobně jako je tomu ve vyhledávači od Googlu.

„Umělá inteligence je téměř ve všech našich službách, ne na všech je ale pro uživatele při využívání služby viditelná,“ doplňuje Hlaváčová. Distribuci svých LLM ke komerčnímu využití však zatím Seznam neplánuje, bude ale pokračovat s jejich implementací do svých dalších služeb, například do reklamního systému Sklik.

Konkurence pro ChatGPT?

Kromě integrace umělé inteligence do jednotlivých služeb firma pracuje i na vlastní chatovací aplikaci nazvané Seznam Asistent. Aktuálně ji testuje na pár procentech uživatelů. „Jedná se o chytrý konverzační nástroj založený na umělé inteligenci, který uživatelům pomůže efektivněji vyhledávat informace, orientovat se ve zpravodajství a získávat přehled o všeobecných tématech,“ popisuje Hlaváčová s tím, že se aplikace bude postupně rozšiřovat o nové funkce a schopnosti. Zároveň se stává hlavním předmětem využití modelů SeLLMa, které se nyní upravují přímo podle jejích potřeb.

Jeho konkurenční výhodou, například oproti populárnímu ChatGPT, má být právě znalost českého prostředí. Díky tomu mají být i jeho odpovědi přizpůsobeny potřebám tuzemských uživatelů. „Asistent využívá kombinaci dat z vyhledávání Seznamu, webového a zpravodajského indexu, informací z Počasí.cz a dalších ověřených interních zdrojů,“ dodává Hlaváčová.

První český chatbot

Seznam Asistent nicméně není prvním českým veřejným chatbotem. Toto prvenství získala brněnská firma Zoner, která v červenci spustila službu AirGPT, postavenou na modelu Llama od společnosti Meta, a ještě dříve zprovoznila generátor obrázků. Její ředitel Milan Behro pro e15 řekl, že pro tyto účely koupil více než sto čipů od Nvidie.

Tvorba velkého jazykového modelu se rozjíždí také na evropské úrovni. EU spustila projekt OpenEuroLLM, který vede Jan Hajič z Matematicko-fyzikální fakulty Univerzity Karlovy. Jeho rozpočet je 34 milionů eur, tedy více než 800 milionů korun, ale v této částce nejsou započteny náklady na výpočetní sílu v datacentrech. Jedná se tedy o výdaje na lidskou sílu a vedení celého projektu.

Vzniknout mají LLM s podporou 32 jazykům, včetně češtiny. Díky projektu chce EU ekonomicky nezaostat v sektoru, který bude hrát do budoucna klíčovou roli. Souvisí však také se snahou o takzvanou evropskou technologickou suverenitu, tedy cílem nebýt v tomto směru závislý na jiných státech a regionech. „Potřebujeme, aby u nás zůstávala data, aby se tady provozovaly modely a aby lidé neodcházeli za příležitostmi jinam, a zůstávali v evropské vědě a firmách,“ vysvětlil Hajič.

Začít diskuzi