पोकर शब्द

प्रतितथ्यात्मक पछतावा

Counterfactual Regret

शब्द: प्रतितथ्यात्मक पश्चाताप गेम थ्योरी के प्रतितथ्यात्मक पश्चाताप न्यूनीकरण एल्गोरिथ्म में, यह एक निश्चित सूचना सेट के तहत अन्य कार्यों को न चुनने के कारण होने वाले पश्चाताप मान को मापता है, जिसका उपयोग नैश संतुलन तक क्रमिक रूप से पहुंचने के लिए किया जाता है।

शब्द लेख: प्रतितथ्यात्मक पश्चाताप ## अवलोकन प्रतितथ्यात्मक पश्चाताप (CFR) गेम थ्योरी और कृत्रिम बुद्धिमत्ता के क्षेत्रों में एक महत्वपूर्ण अवधारणा है। इसे 2008 में मार्टिन ज़िन्केविच एट अल. द्वारा अपूर्ण सूचना वाले खेलों में रणनीति अनुकूलन समस्याओं को हल करने के लिए प्रस्तावित किया गया था। टेक्सास होल्डम जैसे खेलों में, CFR पश्चाताप न्यूनीकरण एल्गोरिथ्म का एक मुख्य घटक है और इसका व्यापक रूप से उच्च स्तरीय AI बनाने के लिए उपयोग किया गया है, जैसे Libratus और Pluribus। ## सिद्धांत प्रतितथ्यात्मक पश्चाताप एक विशिष्ट सूचना सेट (खिलाड़ी को वर्तमान में ज्ञात सभी जानकारी) के तहत, यदि खिलाड़ी ने वास्तविक कार्रवाई के बजाय एक भिन्न कार्रवाई चुनी होती तो उन्हें प्राप्त होने वाले लाभ में अंतर को मापता है। विशेष रूप से, प्रत्येक सूचना सेट और प्रत्येक संभावित कार्रवाई के लिए, एल्गोरिथ्म उस कार्रवाई के लिए "प्रतितथ्यात्मक पश्चाताप मान" की गणना करता है: यह मानते हुए कि खिलाड़ी अन्य सभी निर्णय बिंदुओं पर वर्तमान रणनीति का पालन करता है और केवल इस नोड पर कार्रवाई बदलता है, पश्चाताप मान नई कार्रवाई के अपेक्षित लाभ से वर्तमान रणनीति के अपेक्षित लाभ को घटाने के बराबर है। प्रत्येक दौर के खेल के बाद, एल्गोरिथ्म वास्तविक परिणाम के आधार पर प्रत्येक सूचना सेट के तहत कार्रवाइयों के लिए पश्चाताप मानों को अद्यतन करता है। जैसे-जैसे पुनरावृत्तियों की संख्या बढ़ती है, पश्चाताप जमा होते हैं और रणनीति को समायोजित करने के लिए उपयोग किए जाते हैं: कम पश्चाताप वाली कार्रवाइयों (अर्थात कम पछतावा) को उच्च संभावनाएं दी जाती हैं। अंततः, जब सभी सूचना सेटों पर औसत पश्चाताप शून्य के करीब पहुंचता है, तो रणनीति नैश संतुलन में अभिसरित हो जाती है। ## टेक्सास होल्डम में अनुप्रयोग CFR विशेष रूप से टेक्सास होल्डम जैसे खेलों के लिए उपयुक्त है, जिनमें छिपी हुई जानकारी, यादृच्छिकता और बहु-दौर निर्णय लेना शामिल है। चूंकि पूरा खेल वृक्ष बहुत बड़ा है, व्यावहारिक अनुप्रयोगों में अक्सर जटिलता को कम करने के लिए अमूर्तन तकनीकों (जैसे राज्य क्लस्टरिंग और कार्रवाई अमूर्तन) का उपयोग किया जाता है। खरबों स्व-खेल सिमुलेशन के माध्यम से, CFR लगभग इष्टतम रणनीति उत्पन्न कर सकता है और हेड्स-अप नो-लिमिट टेक्सास होल्डम में शीर्ष मानव खिलाड़ियों को हराया है। ## संबंधित शब्दों के साथ संबंध - पश्चाताप न्यूनीकरण (RM): CFR, RM का बहु-खिलाड़ी, अपूर्ण-सूचना परिदृश्यों में विस्तार है, जो समान मूल विचार साझा करता है।

नैश संतुलन: CFR का लक्ष्य एक मिश्रित-रणनीति नैश संतुलन खोजना है, जहां कोई भी खिलाड़ी एकतरफा अपनी रणनीति बदलकर लाभ नहीं उठा सकता।
रणनीति पुनरावृत्ति: CFR बार-बार पुनरावृत्तियों के माध्यम से रणनीति को अद्यतन करता है, जो पारंपरिक मूल्य पुनरावृत्ति या नीति ग्रेडिएंट विधियों से भिन्न है।

टिप्पणियाँ (0)

साइन इन करके चर्चा में शामिल हों

प्रतितथ्यात्मक पछतावा

संबंधित शब्द

टिप्पणियाँ (0)

संबंधित

नैश संतुलन

CFR

अब्स्ट्रैक्शन

पुनरावृत्ति

शोषण

निट

रेग

Bet

टिप्पणियाँ (0)

संबंधित

नैश संतुलन

CFR

अब्स्ट्रैक्शन

पुनरावृत्ति

शोषण

निट

रेग

Bet