
AlphaStar ของ DeepMind เรียนรู้วิดีโอเกมกลยุทธ์ที่ซับซ้อนซึ่งมีการเคลื่อนไหวที่เป็นไปได้หลายล้านล้านครั้งในแบบเรียลไทม์
เมื่อเดือนมกราคมที่ผ่านมา ในระหว่างการสตรีมสดบน YouTube และ Twitch ผู้เล่น StarCraft II มืออาชีพ Grzegorz “MaNa” Komincz จากโปแลนด์ ได้โจมตีมนุษยชาติอย่างถล่มทลาย เมื่อเขาเอาชนะตัวแทนปัญญาประดิษฐ์มูลค่าหลายล้านดอลลาร์ที่รู้จักกันในชื่อ AlphaStar ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อโจมตีผู้เล่นที่เป็นมนุษย์ เกมวางแผนแบบเรียลไทม์ยอดนิยม
การสูญเสียสาธารณะต่อหน้าแฟน ๆ eSports นับหมื่นเป็นการระเบิดสำหรับ DeepMind ซึ่งเป็น บริษัท แม่ของ Google ซึ่งเป็น บริษัท แม่ของ Google ในลอนดอนซึ่งเป็นผู้พัฒนา AlphaStar แต่แม้ว่า AI จะแพ้การต่อสู้ แต่ก็ชนะสงครามไปแล้ว การทำซ้ำก่อนหน้านี้ได้เอาชนะ Komincz ถึงห้าครั้งติดต่อกันและเช็ดพื้นกับเพื่อนร่วมทีมของเขา Dario “TLO” Wünsch แสดงให้เห็นว่า AlphaStar เชี่ยวชาญในวิดีโอเกมเพียงพอแล้ว ซึ่งนักวิจัยแมชชีนเลิร์นนิงได้เลือกให้เป็นมาตรฐานของความก้าวหน้าของ AI
หลายเดือนนับแต่นั้นมา AlphaStar แข็งแกร่งขึ้นเรื่อยๆ และขณะนี้สามารถเอาชนะผู้เล่น StarCraft II ได้ 99.8% ทางออนไลน์ และได้รับตำแหน่งปรมาจารย์ในเกมบนเว็บไซต์ทางการ Battle.net ซึ่งเป็นผลงานที่อธิบายในวันนี้ในบทความใหม่ในวารสารNature .
ย้อนกลับไปในปี 1992 IBM ได้พัฒนา AI พื้นฐานที่เรียนรู้ที่จะเป็นผู้เล่นแบ็คแกมมอนที่ดีขึ้นผ่านการลองผิดลองถูก ตั้งแต่นั้นมา ตัวแทน AI ใหม่ก็ได้ครอบงำโลกของเกมอย่างช้าๆ แต่แน่นอน และความสามารถในการควบคุมเกมกลยุทธ์ของมนุษย์อันเป็นที่รักได้กลายเป็นหนึ่งในวิธีหลักในการประเมินปัญญาประดิษฐ์
ในปี 1997 DeepBlue ของ IBM เอาชนะ Gary Kasparov ผู้เล่นหมากรุกที่เก่งที่สุดในโลก โดยเปิดตัวยุคแห่งอำนาจสูงสุดของหมากรุกดิจิทัล ไม่นานมานี้ในปี 2016 AlphaGo ของDeepmindเอาชนะผู้เล่นที่เป็นมนุษย์ที่ดีที่สุดในเกม Go ของจีน ซึ่งเป็นเกมกระดานที่ซับซ้อนซึ่งมีการเคลื่อนไหวที่เป็นไปได้หลายพันครั้งในแต่ละตา ซึ่งบางคนเชื่อว่า AI จะไม่แตกร้าวไปอีกศตวรรษ ปลายปีที่แล้ว AlphaZero ซึ่งเป็นการทำซ้ำครั้งต่อไปของ AI ไม่เพียงแต่สอนตัวเองให้กลายเป็นผู้เล่นหมากรุกที่เก่งที่สุดในโลกในเวลาเพียงสี่ชั่วโมงเท่านั้น แต่ยังเชี่ยวชาญเกม Shogi ญี่ปุ่นที่เหมือนหมากรุกในสองชั่วโมงเช่นเดียวกับ Go ในเวลาเพียง วัน
ในขณะที่เครื่องจักรอาจครองเกมอย่างการผูกขาดหรือผู้ตั้งถิ่นฐานของ Catan การวิจัย AI กำลังเปลี่ยนจากเกมกระดานคลาสสิกไปเป็นวิดีโอเกม ซึ่งด้วยการผสมผสานระหว่างความคล่องแคล่วทางกายภาพ กลยุทธ์ และการสุ่มเสี่ยงทำให้เครื่องจักรเชี่ยวชาญได้ยากขึ้นมาก
“ประวัติศาสตร์ของความก้าวหน้าในปัญญาประดิษฐ์ได้รับการทำเครื่องหมายด้วยความสำเร็จครั้งสำคัญในเกม นับตั้งแต่คอมพิวเตอร์เล่นโก หมากรุก และโป๊กเกอร์ สตาร์คราฟต์ก็กลายเป็นความท้าทายที่ยิ่งใหญ่ครั้งต่อไป” เดวิด ซิลเวอร์ นักวิทยาศาสตร์การวิจัยหลักของ DeepMind กล่าวในแถลงการณ์ “ความซับซ้อนของเกมนั้นยิ่งใหญ่กว่าหมากรุกมาก เพราะผู้เล่นควบคุมยูนิตได้หลายร้อยยูนิต ซับซ้อนกว่า Go เพราะมี 10 26ตัวเลือกที่เป็นไปได้สำหรับทุกการเคลื่อนไหว และผู้เล่นมีข้อมูลเกี่ยวกับคู่ต่อสู้น้อยกว่าในโป๊กเกอร์”
David Churchill นักวิทยาศาสตร์คอมพิวเตอร์ที่ Memorial University of Newfoundland ซึ่งจัดการแข่งขัน StarCraft AI ประจำปีในช่วงทศวรรษที่ผ่านมาและทำหน้าที่เป็นผู้ตรวจสอบบทความฉบับใหม่นี้ กล่าวว่าเกมอย่างหมากรุกคือจุดแข็งของ AI ผู้เล่นแต่ละคนผลัดกันและแต่ละคนมีเวลาให้นานที่สุดในการพิจารณาการย้ายครั้งต่อไป การย้ายแต่ละครั้งจะเปิดชุดของการเคลื่อนไหวใหม่ และผู้เล่นแต่ละคนจะเป็นผู้ควบคุมข้อมูลทั้งหมดบนกระดาน พวกเขาสามารถเห็นสิ่งที่คู่ต่อสู้ทำและคาดการณ์การเคลื่อนไหวครั้งต่อไปของพวกเขา
“StarCraft พลิกทุกอย่างได้อย่างสมบูรณ์ แทนที่จะเคลื่อนไหวแบบอื่น มันเป็นการเคลื่อนไหวพร้อมกัน” เชอร์ชิลล์กล่าว “และมี ‘หมอกแห่งสงคราม’ อยู่เหนือแผนที่ มีหลายสิ่งหลายอย่างเกิดขึ้นที่ฐานของคู่ต่อสู้ซึ่งคุณไม่สามารถมองเห็นได้จนกว่าคุณจะสำรวจที่ตั้ง มีกลยุทธ์มากมายที่พิจารณาว่าคู่ต่อสู้ของคุณมีอะไรบ้าง สิ่งที่พวกเขาไม่สามารถมีได้ และสิ่งที่คุณควรทำเพื่อตอบโต้เมื่อคุณมองไม่เห็นว่าเกิดอะไรขึ้น”
เพิ่มความจริงที่ว่าใน StarCraft II สามารถมีหน่วยได้ 200 หน่วยในแต่ละช่วงเวลา แต่ละหน่วยมีการกระทำที่เป็นไปได้หลายร้อยครั้ง และตัวแปรกลายเป็นดาราศาสตร์ “มันเป็นเกมที่ซับซ้อนมากขึ้น” เชอร์ชิลล์กล่าว “มันเกือบจะเหมือนกับการเล่นหมากรุกในขณะที่เล่นฟุตบอล”
ในช่วงหลายปีที่ผ่านมา เชอร์ชิลล์ได้เห็นโปรแกรม AI ที่สามารถควบคุมองค์ประกอบหนึ่งหรือสององค์ประกอบของ StarCraft ได้ค่อนข้างดี แต่ไม่มีสิ่งใดสามารถดึงเอาทุกอย่างมารวมกันได้ เขากล่าวว่าส่วนที่น่าประทับใจที่สุดของ AlphaStar ไม่ใช่ว่ามันสามารถเอาชนะมนุษย์ได้ มันคือมันสามารถจัดการกับเกมโดยรวม
แล้ว AI ของ DeepMind เปลี่ยนจากการล้มอัศวินและโจรเพื่อควบคุมหมากรุกฟุตบอลด้วยปืนเลเซอร์ได้อย่างไร เอเจนต์ AI ก่อนหน้านี้ รวมถึงอัลกอริธึม FTW ของ DeepMindซึ่งศึกษาการทำงานเป็นทีมเมื่อต้นปีนี้ขณะเล่นวิดีโอเกม Doom III ได้เรียนรู้วิธีควบคุมเกมด้วยการเล่นกับเวอร์ชันของตัวเอง อย่างไรก็ตาม คู่ต่อสู้เครื่องจักรทั้งสองมีการจับคู่ที่เท่าๆ กันและอัลกอริธึมที่ดุดันเท่าๆ กัน ด้วยเหตุนี้ AI จึงเรียนรู้รูปแบบการเล่นเพียงไม่กี่รูปแบบเท่านั้น มันเหมือนกับการจับคู่ Babe Ruth กับ Babe Ruth; AI ได้เรียนรู้วิธีจัดการกับโฮมรัน แต่ประสบความสำเร็จน้อยกว่ากับคนโสด ป็อป ฟลาย และมวยไทย
ทีม DeepMind ตัดสินใจว่าสำหรับ AlphaStar แทนที่จะเรียนรู้เพียงแค่เล่นกับตัวมันเองที่มีพลังสูง มันจะฝึกกับกลุ่มของระบบ AI ที่พวกเขาขนานนามว่าลีก ในขณะที่คู่ต่อสู้บางคนในลีกตั้งใจที่จะชนะเกมนี้ แต่คนอื่นๆ ก็เต็มใจที่จะยอมเสี่ยงเพื่อช่วยเปิดเผยจุดอ่อนในกลยุทธ์ของ AlphaStar เช่น ทีมฝึกซ้อมที่ช่วยให้กองหลังออกกำลังกาย
กลยุทธ์ดังกล่าวเมื่อรวมกับเทคนิคการวิจัย AI อื่นๆ เช่น การเรียนรู้เลียนแบบ ซึ่ง AlphaStar วิเคราะห์การแข่งขันก่อนหน้านับหมื่นรายการ ดูเหมือนว่าจะใช้ได้ผล อย่างน้อยก็เมื่อพูดถึงวิดีโอเกม
ในที่สุด DeepMind เชื่อว่าการเรียนรู้ AI ประเภทนี้สามารถใช้สำหรับโครงการต่างๆ เช่น หุ่นยนต์ ยารักษาโรค และในรถยนต์ที่ขับเคลื่อนด้วยตนเอง Oriol Vinyals, DeepMind กล่าวว่า “AlphaStar พัฒนาความเข้าใจของเราเกี่ยวกับ AI ด้วยวิธีสำคัญหลายประการ: การฝึกอบรมตัวแทนหลายคนในลีกที่มีการแข่งขันสูงสามารถนำไปสู่ประสิทธิภาพที่ยอดเยี่ยมในสภาพแวดล้อมที่ซับซ้อนสูง นักวิทยาศาสตร์การวิจัยและผู้เขียนนำรายงานฉบับใหม่กล่าวในแถลงการณ์ “ฉันตื่นเต้นที่จะเริ่มสำรวจวิธีที่เราสามารถนำเทคนิคเหล่านี้ไปใช้กับความท้าทายในโลกแห่งความเป็นจริง”
แม้ว่า AlphaStar จะเป็นความก้าวหน้าที่เหลือเชื่อในด้าน AI แต่เชอร์ชิลล์ยังคิดว่ามันยังมีที่ว่างสำหรับการปรับปรุง ประการหนึ่ง เขาคิดว่ายังมีมนุษย์อยู่อีกมากที่สามารถเอาชนะโปรแกรม AlphaStar ได้ โดยเฉพาะอย่างยิ่งเมื่อ AI จำเป็นต้องฝึกในแผนที่ใหม่ใดๆ ที่เพิ่มเข้ามาในเกม สิ่งที่เขาบอกว่าผู้เล่นที่เป็นมนุษย์สามารถปรับตัวได้เร็วกว่ามาก “พวกเขาอยู่ในจุดที่พวกเขาเอาชนะผู้เล่นมืออาชีพระดับล่างได้ พวกเขากำลังเอาชนะผู้เล่นสำรองใน NBA” เขากล่าว “พวกเขามีหนทางอีกยาวไกล ก่อนที่พวกเขาจะพร้อมสำหรับ LeBron James แห่ง StarCraft”
เวลาจะบอกได้ว่า DeepMind จะพัฒนาเทคนิคเพิ่มเติมที่ทำให้ AlphaStar ดียิ่งขึ้นในการทำลายมนุษย์ต่างดาวดิจิทัลหรือไม่ ในระหว่างนี้ โครงการแมชชีนเลิร์นนิงต่างๆ ของบริษัทได้ท้าทายตัวเองจากปัญหาทางโลก เช่น การค้นหาวิธีพับโปรตีนถอดรหัสข้อความภาษากรีกโบราณและเรียนรู้วิธีวินิจฉัยโรคตาด้วยหรือดีกว่าแพทย์