Google Překladač umí dalších 110 jazyků

Někdo na strojové učení nadává a obává se o budoucnost, ale ono nám již dlouhé roky pomáhá, a to třeba v překonávání jazykových bariér. Asi nejznámějším překladačem je ten od Googlu, ale dlouhé roky nepatří k tomu nejlepšímu. Oznámil ale vylepšení a příchod dalších jazyků.

Google se před dvěma lety pochlubil příchodem dalších 34 jazyků a pokročilým strojovým učením. Tentokrát se však společnost pochlubila dalšími 110 jazyky. K učení jazyků využívá model PaLM 2.

Když se podíváte na nabídku jazyků, je opravdu obrovská. Mezi podporovanými jazyky je mimochodem také romština. Nabízí jiná služba tak velké množství podporovaných jazyků zdarma?

Ona je ale i důležitá kvalita výsledného překladu, kde dle mých testů Google stále ztrácí před roky oceňovaným překladačem DeepL. To se ale brzy může změnit, protože Google má obrovské finanční prostředky a jeho překladač využívá velký počet uživatelů. Algoritmy může tedy výrazně vylepšit a díky uživatelům se mohou rychle učit.

Zde jsou některé z nově podporovaných jazyků v Překladači Google:

  • Afarština je tónový jazyk, kterým se mluví v Džibutsku, Eritreji a Etiopii. Afarština měla ze všech jazyků, které byly v rámci tohoto spuštění, nejvíce dobrovolných komunitních příspěvků.
  • Kantonština je dlouhodobě jedním z nejžádanějších jazyků pro překladač Google. Protože se kantonština v písemném projevu často překrývá s mandarínštinou, je obtížné najít data a trénovat modely.
  • Manština je keltský jazyk ostrova Man. Se smrtí posledního rodilého mluvčího v roce 1974 téměř vymizela. Díky hnutí za její oživení na celém ostrově však nyní existují tisíce mluvčích.
  • NKo je standardizovaná forma západoafrických mandingských jazyků, která sjednocuje mnoho dialektů do společného jazyka. Jeho unikátní abeceda byla vynalezena v roce 1949 a dodnes pro něj existuje aktivní výzkumná komunita, která vyvíjí zdroje a technologie.
  • Paňdžábština (šahmukhi) je odrůda paňdžábštiny psaná persko-arabským písmem (šahmukhi) a je nejrozšířenějším jazykem v Pákistánu.
  • Tamazight (amazičtina) je berberský jazyk, kterým se mluví v severní Africe. Ačkoli existuje mnoho dialektů, psaná forma je obecně vzájemně srozumitelná. Píše se latinkou a písmem Tifinagh, přičemž obě varianty překladač Google podporuje.
  • Tok pisin je kreolština založená na angličtině a je to lingua franca Papuy-Nové Guineje. Pokud mluvíte anglicky, zkuste si to přeložit do tok pisin – možná se vám podaří porozumět významu!

Zdroj: Google blog, TZ

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

*