30.12.2014
Posílení kapacity a vlastností
VícePřidáno: 14.02.2014 | Autor: Vincent Kríž
Základní ideou strojového učení je automatické dolování vědomostí z dat a používání těchto vědomostí při zpracování dat nových, dosud neviděných. Více podrobností naleznete v dalším textu.
Strojové učení je dalším druhem činnosti, kterým se v softwerovém ateliéru Kamadu zabýváme.
Typickým úkolem, který algoritmy strojového učení dokážou řešit, je tvorba klasifikátorů. Jako klasifikátor si můžete představit aplikaci, která na vstupu čeká popis nejakého objektu, například řetězec textu, soubor fyzikálnych měření, nebo digitální záznam mluveného slova. Klasifikátor o daném objektu na výstupu prohlásí nějakou novou informaci, například, zda je řetězec zmysluplná věta v češtině, zda je daná kombinace fyzikálnich měření možná, nebo může vypsat text, který mluvčí řekl ve vstupném digitalizovaném záznamu.
Vědomosti, na základě kterých klasifikátor objekty klasifikuje, získává v trénovací fáze strojového učení. V této fáze algoritmus vyžaduje dodání trénovacích dat - objektů, ke kterým je už požadovaná výstupní informace známá. Trénovací data jsou vytvářena lidskými experty, kteří každému trénovacímu objektu manuálne přiradí výstupní klasifikaci.
Algoritmy strojového učení pak s určitou přesností dokážou klasifikaci lidí napodobit, právě na základě dodaných trénovacích dat. To, s jakou přesností to dokážou, je možné vyjádřit matematicky přesně pomocí několika výkonových měr.
Vincent Kríž, který je jedním ze zakladatelů ateliéru Kamadu, se momentálně strojovým učením zabírá také v rámci jeho doktorského studia. S implementací strojového učení máme řadu zkušenosti i mimo akademickou sféru.
Podíleli jsme se na přípravě trénovacích dat pro aplikace na zpracování životopisů. Následně jsme tyto trénovací data použili pro trénování a testovací softwéru pro zpracování životopisů v českém a slovenském jazyce.
Příprava trénovacích dat pro aplikace na zpracování pracovních nabídek. V rámci tohto projektu jsme vyškolili desítku anotátorů, z řad studentů češtiny na Masarykově univerzite v Brně, kteří pak vytvořili trénovací data pro další fáze projektu.
Aplikace na hromadné rozesílaní e-mailů (modul Newsletter v informačním systému VincIS) dokáže pomocí metod strojového učení zpracovat navrácené e-maily a vyhodnotit, zda je adresát na dovolené, zda je e-mail neplatný, nebo adresát už v dané společnosti nepracuje a další.
Každá aplikace strojového učení představuje dlouhý proces, který musí začít úplným pochopením potřeb potenciálního zákazníka. Pokud si myslíte, že by nějaký proces ve Vaší firmě šlo řešit strojovým učením, rádi si s Vámi o tom promluvíme.