Erhvn.mn  Бидэнтэй нэгдээрэй !

Энэ сард нийтлэгдсэн Гүүглийн судалгааны ажилд Tacotron 2 гэх нэртэй хүний текстийг уншиж буй дуу хоолойг ялгагдахгүйгээр дурайх чадвартай технологийн талаар дэлгэрэнгүй тайлбарлажээ. 

Энэхүү технологи нь энэ чиглэлд Гүүглийн хөгжүүлж буй хоёрдох үеийн технологи ба хоёр төрлийн гүн мэдрэлийн сүлжээнээс /Deep neural network/ бүрддэг аж. Эхний сүлжээ нь текстийг дуу авианы давтамжийг визуал байдлаар илэрхийлэх спектограмруу хөрвүүлдэг. Үүний дараагаар тус спектрийг Alphabet ийн хиймэл оюун ухаан хөгжүүлэлтийн баг болох Deep Mind-ийн хөгжүүлсэн Wavenet-руу шилжүүлэх бөгөөд  энэ нь диаграмыг уншиж, харгалзах аудио элементүүдийг зохих ёсоор үүсгэдэг юм байна. 

Доор байгаа жишээ хоёр аудионы нэгийн нь хүн гаргаж байгаа бол нөгөөхийг нь Гүүглийн хөгжүүлсэн хиймэл оюун гаргаж байгаа юм. Аль нь хүн аль нь хиймэл оюун ухаан гэдгийг ялгах боломжгүйг та сонсож үзээд мэдэх болно. 

“George Washington was the first President of the United States.”

Гүүглийн судлаачдын мэдэгдэж буйгаар Тacotron 2 нь хэлэхэд хэцүү үгнүүд болон нэрнүүдийг асуудалгүй дуудаж чаддаг бөгөөд цэг , таслалаас хамаарах дуудлагын өөрчлөлтийг хүртэл хийж чаддаг аж. 

“Basilar membrane and otolaryngology are not auto-correlations”

“The buses aren’t the problem, they actually provide a solution.”

“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

 

Хиймэл оюун ухааны цөмийг судалдаг бусад компаний технологиудтай харьцуулахад энэ технологи нь  бий болсон даруйдаа Гүүглэд ашиглагдахаар болсон юм. WaveNet анх 2016 онд танилцуулагдаж байсан бол өнөөдрийн байдлаар Google Assistant-ийн дуу хоолойг үүсгэхэд ашиглагдаж байна.

Тacatron 2-ийг бүтээгдэхүүнд ашиглах боломжтой болгон хөгжүүлснээр Гүүглийн шинэ үйлчилгээнүүдэд хүчтэй нэмэлт болно гэж мэргэжилтнүүд үзэж байгаа аж. Гэвч одоогийн байдлаар Тасоtron 2 нь ганц л эмэгтэйн хоолойг дуурайхаар бэлтгэгдсэн бөгөөд өөр төрлийн эрэгтэй , эмэгтэй хоолойнуудыг дуурайж сурахын тулд өшөө илүү системийн хөгжүүлэлт хэрэгтэй юм байна.

Эх сурвалж: Quartz

 

Сэтгэгдэл үлдээх