Vědci využívají umělou inteligenci k dekódování psích zvuků

Přáli jste si někdy rozumět tomu, co se vám váš pes snaží říct? Výzkumníci z Michiganské univerzity zkoumají možnosti umělé inteligence a vyvíjejí nástroje, které dokáží rozpoznat, zda psí štěkot vyjadřuje hravost nebo agresi.

Stejné modely mohou z hlasových projevů zvířat získat i další informace, jako je věk, plemeno a pohlaví zvířete. Studie, která vznikla ve spolupráci s mexickým Národním institutem astrofyziky, optiky a elektroniky zjistila, že modely umělé inteligence původně vycvičené na lidské řeči lze použít jako výchozí bod pro trénink nových systémů zaměřených na komunikaci zvířat.

„O zvířatech, která s námi sdílejí tento svět, toho ještě tolik nevíme. Pokroky v oblasti umělé inteligence mohou být využity k revoluci v našem chápání komunikace zvířat a naše zjištění naznačují, že možná nebudeme muset začínat od nuly.“

Jednou z převažujících překážek při vývoji modelů umělé inteligence, které by dokázaly analyzovat zvířecí vokalizaci, je nedostatek veřejně dostupných dat. Zatímco pro nahrávání lidské řeči existuje řada zdrojů a možností, sběr takových dat od zvířat je obtížnější.

„Zvířecí vokalizace je z logistického hlediska mnohem obtížnější získat a zaznamenat,“ řekl Artem Abzaliev, hlavní autor a doktorand počítačové vědy a inženýrství. „Musí být pasivně zaznamenány ve volné přírodě nebo, v případě domácích zvířat, se svolením majitelů.“

Vzhledem k nedostatku použitelných dat se ukázalo, že techniky pro analýzu psích zvuků se vyvíjejí obtížně, a ty, které existují, jsou omezeny nedostatkem výcvikového materiálu. Výzkumníci překonali tyto problémy tím, že znovu použili existující model, který byl původně navržen pro analýzu lidské řeči.

Tento přístup umožnil výzkumníkům využít robustní modely, které tvoří páteř různých technologií využívajících hlas, které dnes používáme, včetně převodu hlasu na text a překladu jazyka. Tyto modely jsou vycvičeny k rozlišování nuancí v lidské řeči, jako je tón, výška hlasu a přízvuk, a převádějí tyto informace do formátu, který může počítač použít k identifikaci říkaných slov, rozpoznání mluvící osoby a dalším činnostem.

„Tyto modely se dokáží naučit a zakódovat neuvěřitelně složité vzorce lidského jazyka a řeči,“ řekl Abzaliev. „Chtěli jsme zjistit, zda bychom mohli tuto schopnost využít k rozeznání a interpretaci psího štěkotu.“

Výzkumníci použili soubor dat psích zvuků zaznamenaných od 74 psů různých plemen, věku a pohlaví v různých kontextech. Tým, který soubor dat shromáždil. Abzaliev pak nahrávky použil k úpravě modelu strojového učení – typu počítačového algoritmu, který identifikuje vzory ve velkých souborech dat. Tým zvolil model reprezentace řeči, který byl původně vycvičen na datech lidské řeči.

Pomocí tohoto modelu byli výzkumníci schopni generovat reprezentace akustických dat získaných od psů a tyto reprezentace interpretovat. Zjistili, že tenhle model nejenže uspěl ve čtyřech klasifikačních úlohách, ale také překonal jiné modely vycvičené speciálně na datech o štěkání psů, a to s přesností až 70 %.

„Je to poprvé, co byly techniky optimalizované pro lidskou řeč použity pro dekódování komunikace zvířat,“ řekl vědec. „Naše výsledky ukazují, že zvuky a vzory odvozené z lidské řeči mohou sloužit jako základ pro analýzu a pochopení akustických vzorů jiných zvuků, například zvířecích.“

Kromě toho, že se modely lidské řeči staly užitečným nástrojem při analýze komunikace zvířat, což by mohlo být přínosem pro biology, odborníky na chování zvířat a další, má tento výzkum důležité důsledky pro dobré životní podmínky zvířat. Pochopení nuancí psí řeči by mohlo výrazně zlepšit způsob, jakým lidé interpretují a reagují na emocionální a fyzické potřeby psů, a tím zlepšit péči o ně a předcházet potenciálně nebezpečným situacím, uvedli vědci.

Zdroj: Tech Xplore