Algoritma Baru Fb Dapat Bermain Poker Dan Mengalahkan Manusia Di Dunia Informasi / Digital

Algoritma Baru Facebook Dapat Bermain Poker Dan Mengalahkan Manusia Di Dunia Informasi / Digital

Apakah Anda pernah memikirkan mesin berbasis AI yang bermain poker dengan Anda? Jika imajinasi Anda menjadi liar maka Fb siap untuk mewujudkannya dengan kerangka kerja AI umum baru yang disebut Pembelajaran Berbasis Keyakinan Rekursif (ReBeL) yang bahkan dapat berkinerja lebih baik daripada manusia di poker dan dengan sedikit pengetahuan area dibandingkan dengan pengaturan poker sebelumnya yang dibuat dengan AI.

Dengan ReBel, Fb juga akan berinteraksi multi-agen – yang berarti bahwa algoritma umum akan segera memiliki kapasitas untuk digunakan dalam skala besar dan untuk pengaturan multi-agen juga. Aplikasi potensial termasuk pekerjaan seperti pelelangan, negosiasi, dan keamanan siber atau pengoperasian mobil dan truk yang dapat dikendarai sendiri.

Rencana Fb untuk menggabungkan pembelajaran penguatan dengan pencarian pelatihan mannequin AI dapat mengarah pada beberapa kemajuan luar biasa. Ini karena Reinforcement Studying didasarkan pada agen yang belajar untuk mencapai tujuan untuk memaksimalkan imbalan sedangkan pencarian pada dasarnya didefinisikan sebagai proses yang dimulai dari rencana hingga tahap penetapan tujuan.

Salah satu contohnya adalah Deepmind's Alpha Zero yang didasarkan pada program serupa untuk memberikan kinerja canggih dalam permainan papan seperti catur, shogi, dan Go. Namun, kombinasi gagal ketika diterapkan untuk permainan seperti poker karena informasi yang tidak sempurna yang dapat timbul sebagai akibat dari bagaimana situasi dalam permainan berubah. Tindakan kemudian mengambil bantuan dari probabilitas atau strategi permainan.

Oleh karena itu, mengusulkan solusi untuk masalah dalam bentuk ReBel, peneliti Fb kini telah memperluas gagasan tentang "kondisi permainan" sambil memasukkan keyakinan agen yang bergantung pada keadaan mereka saat bermain – menghitung pengetahuan umum dan kebijakan dari pihak lain. pemain juga.

Saat bekerja, ReBel melatih dua mannequin AI; satu dari jaringan nilai dan lainnya dari jaringan kebijakan. Ada penguatan pembelajaran yang terjadi dengan pencarian selama bermain sendiri yang akhirnya menghasilkan algoritma fleksibel yang sekarang berpotensi mengalahkan pemain manusia.

Untuk tingkat tinggi, ReBel beroperasi dengan negara-negara kepercayaan publik daripada pergi untuk negara-negara dunia. Jika itu mengejutkan Anda, maka kepercayaan publik menyatakan ada untuk menggeneralisasi gagasan "nilai negara" dalam sport dengan informasi tidak sempurna seperti Poker. PBS juga lebih sering dianggap sebagai distribusi probabilitas pengetahuan umum atas pengaturan terbatas tindakan dan keadaan yang mungkin, yang kadang-kadang kita sebut sejarah juga.

Sekarang dalam sport informasi sempurna, PBS dapat didistilasi hingga ke sejarah seperti halnya disaring ke negara-negara dunia dalam sport zero-sum dua pemain. Tidak lupa bahwa PBS sebenarnya adalah keputusan yang dapat dilakukan oleh seorang pemain dan juga hasil dari kemungkinan di satu sisi.

Segera setelah ReBel mulai bekerja untuk setiap sport baru, ia menciptakan "subgame" di awal yang sangat mirip dengan yang asli, kecuali kenyataan bahwa akarnya kembali ke PBS awal. Algoritma ini benar-benar menang dengan mengulang runtime dari algoritma "equilibrium-finding" dan kemudian mengambil keuntungan dari jaringan nilai yang terlatih untuk membuat estimasi pada setiap tahap iterasi. Selanjutnya, dengan pembelajaran penegakan hukum, nilai-nilai keluar dengan mudah dan kemudian ditambahkan kembali ke jaringan sebagai contoh pelatihan. Kebijakan dalam "subgame" juga ditambahkan sebagai contoh. Proses ini terus berulang sampai PBS menjadi root subgame baru dan menyelesaikan ambang batas akurasi tertentu.

Para peneliti juga membandingkan ReBel, sebagai bagian dari percobaan, untuk permainan poker maintain'em Texas head-up tanpa batas, Liar's Cube, dan mengubah endgame maintain'em. Mereka menggunakan 128 PC dengan delapan kartu grafis hanya untuk menghasilkan information sport yang terstimulasi dan tentu saja menempatkan taruhan acak dan ukuran tumpukan (mulai dari 5.000 hingga 25.000 chip) untuk menguji kemampuannya.

ReBel juga dilatih pada permainan dengan salah satu pemain poker terbaik di dunia Don Kim dan hasilnya ternyata ReBel bermain lebih cepat dari dua detik per tangan di 7.500 tangan dan bagaimana itu tidak memakan waktu lebih dari 5 detik untuk keputusan apa pun. Secara keseluruhan ReBel mencetak 165 ribu – yang merupakan hasil yang cukup bagus jika dibandingkan dengan sistem bermain poker sebelumnya oleh raksasa media sosial Libratus yang menghasilkan 147 ribu.

Untuk mencegah kecurangan, Fb telah memutuskan bahwa mereka tidak akan merilis foundation kode ReBel untuk Poker. Perusahaan ini hanya mengimplementasikan Liar Cube dari sumber terbuka, yang menurut peneliti lebih mudah dipahami dan disesuaikan.


Foto: Josh Edelson / Agence France-Presse / Getty Photos

Baca selanjutnya: Fb Membanggakan 2,7 Miliar Pengguna Aktif Bulanan pada Kuartal Kedua 2020, 3,14 Miliar Dikombinasikan MAU di Whatsapp, Messenger, Instagram dan FB