Algoritma AI Dari Facebook Bisa Bermain Catur & Poker Dengan Kemudahan Setara

ReBeL


Dalam berita terbaru, tim peneliti di Facebook telah memperkenalkan bot AI umum, Pemberontak dan dapat memainkan informasi sempurna, seperti catur dan permainan informasi yang tidak sempurna seperti poker dengan kemudahan yang sama, menggunakan pembelajaran penguatan. Seperti yang dikatakan perusahaan, ini adalah langkah besar untuk menciptakan algoritme AI umum yang dapat bekerja dengan baik di berbagai game.

Para peneliti percaya bahwa algoritma ini akan memiliki aplikasi dunia nyata, termasuk menangani negosiasi, deteksi penipuan, dan bahkan keamanan siber.

Algoritma ReBeL

AlphaZero dari DeepMind dengan cepat menarik perhatian komunitas penelitian AI ketika dirilis pada tahun 2017. App berbasis AI yang dapat memainkan sport seperti catur, shogi, dan Proceed tidak pernah terdengar, tapi AlphaZero berbeda karena menggunakan pembelajaran penguatan dengan penelusuran (RL + Penelusuran) untuk 'belajar sendiri' dengan meniru pemain kelas dunia.

Ada juga version yang dirancang untuk memainkan permainan lain seperti poker. Misalnya, Facebook, pada 2019, diperkenalkan Bot Pluribus yang berhasil mengalahkan ahli manusia dalam Hold'em enam pemain tanpa batas, yang merupakan structure poker yang paling banyak dimainkan di dunia.



Namun, belum ada algoritma AI umum yang dirancang sedemikian rupa sehingga dapat menjadi juara catur dan poker.

Bagi manusia, kami mengenali keduanya sebagai game yang berbeda dalam arti luas. Namun, untuk mesin, ia mengklasifikasikan permainan seperti catur sebagai permainan informasi yang sempurna, di mana pemain mengetahui semua kemungkinan kejadian dan mengetahui atau dapat melihat gerakan pemain lain; permainan seperti poker diklasifikasikan sebagai permainan informasi yang tidak sempurna yang dibutuhkan pemain untuk menyeimbangkan semua hasil yang mungkin saat membuat keputusan dengan cepat.

Jadi, sementara AlphaZero bekerja dengan baik untuk catur, ia rusak saat digunakan untuk permainan informasi yang tidak sempurna. Untuk mengatasi aspek ini, Facebook kini telah memperkenalkan Recursive Belief-base Learning (ReBeL), yang menurut raksasa networking sosial itu merupakan 'langkah besar menuju pembuatan algoritme AI yang lebih umum'.


Berlangganan newsletter kami

Dapatkan pembaruan terkini dan penawaran relevan dengan membagikan email Anda.


ReBeL adalah peningkatan dari pembelajaran penguatan umum + algoritma Pencarian (juga digunakan oleh AlphaZero). Itu dibangun di atas version sebelumnya seperti AlphaZero tetapi sekarang hadir dengan kemampuan tambahan untuk bermain match seperti poker, di mana ia menilai peluang pemain lawan memiliki kartu tertentu, misalnya, sepasang ace.

ReBeL terbukti efektif dalam permainan informasi tidak sempurna dua pemain berskala besar dengan jumlah nol seperti poker. Kinerjanya dievaluasi pada dua permainan informasi yang tidak sempurna – Texas Hold'em head-up tanpa batas, suatu bentuk poker, dan Liar's Dice, permainan dadu 'gertak-gertakan&em 39; yang dimainkan dengan banyak bagian.

Saat bereksperimen, dalam kasus Texas Hold&em 39;em head-up tanpa batas, ReBeL dapat mengalahkan pakar manusia dengan signifikansi statistik. Itu juga ditemukan bekerja dengan Liar's Dice, yang merupakan jenis informasi tidak sempurna lainnya permainan – dengan demikian menetapkan kemampuan version sebagai kerangka umum. Facebook sekarang implementasi open source di Liar’s Dice untuk memungkinkan komunitas penelitian AI yang lebih luas mengembangkan hasil ini.

Lihat juga

shirt -10-DS-projects

Membungkus

Sesuai Facebook, ReBeL adalah AI pertama yang menggunakan RL + Hunt yang berfungsi dengan baik bahkan dengan match dengan informasi yang tidak sempurna. Namun, ini juga memiliki beberapa batasan.

Pertama, jumlah kecakapan komputasi ReBeL sangat tinggi, terutama dalam konteks sport tertentu seperti Recon Chess. Dalam Recon atau Reconnaissance Chess, pemain tidak menyadari posisi bidak lawan dan harus bergantung pada 'tindakan penginderaan' tertentu untuk menentukan papan. Ini memiliki kedalaman strategis tetapi sangat sedikit pengetahuan umum.

Kedua, karena ReBeL bergantung pada mengetahui aturan permainan yang sebenarnya, ini mungkin berguna untuk Proceed dan poker di mana aturan dan reward terkait sudah diketahui sebelumnya. Namun, hal yang sama tidak dapat dikatakan untuk interaksi dunia nyata. Oleh karena itu, untuk saat ini, dapat dikatakan bahwa mekanisme ReBeL dan kesuksesannya hanya terbatas pada permainan zero-sum dua pemain, yang sedikit dan jarang dalam interaksi dunia nyata.

Terlepas dari kekurangannya, algoritme ini telah mencapai kinerja yang unggul di Texas Hold'em head-up tanpa batas menggunakan pengetahuan ahli yang relatif jauh lebih sedikit. Menulis tentang kemampuan dan ekspektasinya di masa depan, Facebook mengatakan dalam blognya,”… kami melihat ini sebagai langkah besar untuk mengembangkan teknik international untuk interaksi multi-agen, dan dengan demikian sebagai langkah menuju aplikasi dunia nyata yang kompleks seperti deteksi penipuan dan keamanan siber.”


Jika Anda menyukai cerita ini, bergabunglah dengan kami Komunitas Telegram.


Selain itu, Anda dapat menulis untuk kami dan menjadi salah satu dari 500+ pakar yang telah menyumbangkan cerita di AIM. Bagikan milik Anda nominasi di sini.

Shraddha Goled

Saya seorang jurnalis dengan gelar pascasarjana di bidang teknik jaringan komputer. Saat tidak membaca atau menulis, orang dapat menemukan saya mencorat-coret sesuka hati.