Car-tech

Sistem Pengiktirafan Ucapan Mesti Dapatkan Lebih Pintar, Profesor Says

Nak pandai BI atau nak pandai Sains? - Dr Shamsul Amri

Nak pandai BI atau nak pandai Sains? - Dr Shamsul Amri
Anonim

Mereka yang

Dari pengalaman pengguna, orang ramai mendapati sistem ini sangat mengecewakan, "kata James. Allen, yang merupakan pengerusi sains komputer di University of Rochester, bercakap sebelum persidangan SpeechTEK 2010 yang diadakan di New York minggu ini.

Kebanyakan sistem pengiktirafan ucapan berkomputer dapat memahami apa kata manusia hingga 98 peratus masa, dan masih ramai orang yang masih menggunakan sistem bantuan meja telefon automatik. Kunci untuk menjadikan sistem ini kurang mengecewakan untuk digunakan adalah dengan memberikan pemahaman yang lebih mendalam tentang bahasa dan menjadikannya lebih interaktif, kata Allen.

[Bacaan lanjut: PC baru anda memerlukan 15 program percuma percuma ini

Kini, jabatan perkhidmatan pelanggan organisasi yang paling besar menawarkan sistem bantuan berasaskan telefon secara automatik. Seorang pengguna memanggil nombor bantuan dan suara buatan meminta pemanggil satu siri soalan. Kebanyakan sistem ini berdasarkan kerangka yang pada dasarnya adalah pokok keputusan yang besar. Dengan sistem sedemikian, "anda tidak mengetahui apa yang dikehendaki oleh orang itu, anda mengikuti skrip," katanya.

Sistem sebenarnya merupakan komposit dari beberapa teknologi yang berbeza.

Teknologi lain, pemprosesan bahasa semulajadi (NLP), cuba sama-sama mengubah mesej pembicara menjadi satu perintah bahawa komputer boleh dilaksanakan, atau yang boleh diringkaskan untuk pengendali manusia.

Kemajuan besar telah dibuat dalam kedua-dua pengenalan suara dan NLP sejak beberapa dekad yang lalu, tetapi mereka tampaknya telah membawa kebanyakan kekecewaan kepada pengguna mereka. "Saya hanya memanggil bank ketika saya menghadapi masalah dan bertarung dengan sistem ini [saya bertanya] apa yang saya boleh jawab untuk melewati seseorang secepat mungkin," kata Allen.

Kerja penyelidikan akademik Allen telah dalam mencari jalan yang "kita boleh bercakap dengan mesin dengan cara yang sama kita boleh bercakap dengan seseorang," katanya.

Perbualan antara dua orang boleh tepat dengan cara komputer mempunyai kesulitan yang sepadan. Allen menunjuk beberapa kerja awal yang dilakukannya sebagai pelajar siswazah, di mana dia mencatat perbualan di meja maklumat stesen kereta api. Dalam satu interaksi, seorang penumpang berjalan ke bilik dan berkata "8:50 ke Windsor," dan petugas menjawab "Gate 10, 20 minit lewat." Sementara petugas itu mengetahui dengan tepat apa maklumat yang diminta oleh siasatan, sistem komputerisasi akan mendapati pernyataan pertama penumpang itu akan menjadi kenyataan.

Cara Allen melihatnya, dua elemen hilang dari sistem moden: Keupayaan untuk menganalisis apa yang dikatakan pembicara dan Keupayaan untuk berbincang dengan penceramah untuk mengetahui lebih lanjut mengenai apa yang dikatakan oleh penceramah itu.

"Banyak NLP cenderung cenderung menjadi cetek. Kami tidak mempunyai teknologi yang memberikan anda makna kalimat," katanya. Alat pemprosesan statistik dan perkhidmatan definisi perkataan seperti WordNet dapat membantu menentukan kata tetapi juga hubungan kata, sehingga sistem akan mengetahui bahwa, misalnya, "anak perusahaan" adalah bagian dari "perusahaan."

Lebih banyak komunikasi dua hala antara pengguna dan komputer juga diperlukan. Apabila bercakap mengenai keperluan mereka, orang mungkin memberikan maklumat tanpa perintah tertentu. Ia sepatutnya sampai kepada komputer untuk menyatukan maklumat ini dan tidak membebankan pengguna dengan soalan yang telah dijawab jawapannya.

"Ini adalah masa depan, ini benar-benar apa yang anda mahu sistem lakukan, dan bolehkah kita membina dialog sistem yang boleh menyokong pelbagai kerumitan ini, "katanya.

Untuk menggambarkan idea ini, Allen dan pasukan penyelidik merancang sebuah program yang dikenali sebagai Jantung yang dapat meniru soalan yang dijawab seorang jururawat kepada pesakit dengan penyakit jantung. Program ini diwujudkan dengan pembiayaan dari Institut Kesihatan Kebangsaan A.S.. Dengan sistem ini, sekali pengguna membekalkan maklumat, sistem tidak akan meminta lagi, kata Allen. Sistem ini akan memberi alasan tentang apa bahan yang telah disediakan dan apa yang masih diperlukan.

Satu lagi program yang direka oleh Allen dan pasukannya, yang dipanggil Plough, boleh belajar bagaimana melaksanakan tugas umum pada komputer. "Ini adalah sistem yang membolehkan anda menggunakan dialog secara dasar untuk melatih sistem anda untuk melakukan sesuatu untuk anda," katanya. Sebagai contoh, Allen memperlihatkan program pembelajaran cara mencari restoran terdekat menggunakan pelayar. Pengguna akan membuka penyemak imbas, menavigasi ke tapak pencari restoran, taipkan jenis restoran yang dicari dan lokasi, dan kemudian potong dan tampal hasilnya ke halaman kosong. Pengguna mendeskripsikan setiap langkah seperti yang telah dilakukan.

Dalam proses ini, Plough akan merakam setiap langkah, dan bertindak balas apabila langkahnya difahami. Kemudian, apabila pengguna ingin mencari restoran lain, program ini akan melalui semua langkah yang sama, menghasilkan satu lagi restoran secara automatik.

Lebih banyak data adalah kunci untuk sistem pemprosesan bahasa seperti manusia, kata ketua saintis Microsoft untuk ucapan Larry Heck, dalam ucapan lain pada persidangan itu. "Jika anda tidak mempunyai data, tidak kira bagaimana algoritma anda yang canggih," katanya.

Satu tempat untuk mencari lebih banyak data akan ada dalam pertanyaan enjin carian, katanya. Perkhidmatan enjin carian mendapat banyak pertanyaan, semuanya dapat dikaitkan dengan jawapan. "Saya melihat carian sebagai sepupu yang dekat dengan teknologi pemprosesan bahasa," kata Heck.

Pada masa ini, orang ramai dilatih untuk menyusun pertanyaan mereka sebagai satu set kata kunci. Sebaliknya, jika pengguna menaip ayat-ayat penuh yang menggambarkan apa yang mereka perlukan, set data yang dihasilkan dapat membantu sistem yang lebih baik untuk memahami apa yang orang cari.

Heck meramalkan bahawa apabila lebih banyak orang menggunakan perkhidmatan carian suara diaktifkan dari Microsoft dan Google, mereka akan menjadi lebih biasa dengan menstrukturkan pertanyaan mereka sebagai ayat penuh, yang dari semasa ke semasa dapat membantu sistem NLP dengan lebih baik menjangka keperluan pengguna.

Joab Jackson merangkumi perisian perusahaan dan berita teknologi umum untuk

The IDG News Perkhidmatan

. Ikut Joab di Twitter di @Joab_Jackson. Alamat e-mel Joab ialah [email protected]