Asystent głosowy Siri zadebiutował przy okazji premiery systemu iOS 5 w październiku 2011 roku. Od tamtego czasu głos, którym mówi Siri uległ niemałej zmianie.

Inżynierowie Apple musieli wykonać bardzo dużo pracy aby głos Siri w iOS 11 brzmiał bardziej naturalnie niż w poprzednich wersjach tego systemu. Stare metody kreowania mowy na podstawie tekstu polegały na pobieraniu z obszernej biblioteki dźwięków, które odpowiadały poszczególnym głoskom i łączeniu ich w słowa. Taka technika kreowania mowy powodowała, że brzmiała ona nienaturalnie.

Nowe metody generowania mowy wykorzystują sztuczną inteligencję, a dokładniej uczenie maszynowe. Pierwszym krokiem do stworzenia nowego głosu Siri było znalezienie osoby, której głos jest wystarczająco przyjemny, zrozumiał oraz pasuje do „osobowości” Siri. Następnie stworzono około 20 godzin nagrań głosu tej osoby. Wykorzystano przy tym między innymi różnego rodzaju książki, instrukcje obsługi, a nawet dowcipy.

Nagrany dźwięk podzielono następnie na małe fragmenty - głoski i pół-głoski. Przewagą nowej metody nad nad starą jest fakt, że wygenerowane w ten sposób głoski brzmią bardziej naturalnie, ponieważ słowa wypowiadane są raz szybciej, raz wolniej, z taka lub inną tonacją - po prostu naturalnie.

Głoski i pół-głoski stanowią dane wejściowe do procesu uczenia maszynowego będącego w stanie określić, które fragmenty mowy wykorzystać można w danej sytuacji. Zależnie od sposobu wypowiadania, te same zbitki literowe mogą być odpowiednie do zastosowania na początku lub na końcu zdania.

Głos nowej Siri nie jest oczywiście odzwierciedleniem naturalnego głosu człowieka, ale z pewnością brzmi bardziej energicznie i posiada swoje indywidualne cechy - tak jak głos każdego z nas.

Szczegóły na temat wykorzystania procesu uczenia maszynowego do generowania nowego głosu Siri znaleźć można na blogu Machine Learning Journal, który od lipca tego roku publikowany jest na stronie Apple. Można przeczytać w nim więcej ciekawych wpisów dotyczących uczenia maszynowego i nie tylko. Artykuły przeznaczone są raczej dla profesjonalistów, a krótkie opisy niektórych z nich znaleźć można tutaj.

Źródło: TechCrunch za Apple