½üÈÕ£¬Á½¸öÓÉ OpenAI µÄÑо¿ÈËÔ±¿ª·¢µÄһģһÑùµÄ»úе±Û°®ÀöË¿ºÍ±«²ª£¬¿ÉÒÔÔÚÄ£ÄâÇé¾°ÖÐͨ¹ý¶ÔÞÄ»¥Ïàѧϰ£¬¶ø²»ÐèÒªÈËΪÊäÈëÎı¾¡£
ÆäÖÐÒ»¸öÐéÄâ»úе±ÛÒѾѧ»á½â¾ö¸÷ÖÖ²»Í¬µÄÄÑÌâ¶Ñ»ýľ¡¢°Ú·Å×À×Ó¡¢ÅÅÁйú¼ÊÏóÆåÆå×Ó£¬²¢ÇÒÿÏîÈÎÎñ²»ÐèÒª½øÐÐÔÙѵÁ·¡£ÕâÒ»ÇÐͨ¹ýÓëÁíÒ»¸ö»úе±Û¶ÔÞĵÃÒÔʵÏÖ¡£¾ÝÁ˽⣬ÁíÒ»¸ö»úе±Û¾¹ýѵÁ·ºó£¬»á¸øÔ±¾µÄ»úе±Û±Û´øÀ´Ô½À´Ô½ÄѵÄÌôÕ½¡£
ÕâЩ»úÆ÷È˲ÉÓõÄÊÇÇ¿»¯Ñ§Ï°Ëã·¨£¬¼´ÔÚ²»Í¬Çé¿öÏ£¬Í¨¹ýÊÔ´íÀ´ÑµÁ·È˹¤ÖÇÄÜ£¬²¢²ÉÈ¡²»Í¬Ðж¯À´ÊµÏÖÄ¿±ê¡£ÓÎÏ·°üÀ¨ÔÚÐéÄâ×ÀÃæÉÏÒÆ¶¯ÎïÌå¡£ÀýÈ磬ͨ¹ýÒÔÌØ¶¨µÄ·½Ê½ÅÅÁÐÎïÌ壬°®ÀöË¿ÊÔͼÉèÖöԱ«²ªÀ´ËµºÜÄѽâ¾öµÄÃÕÌ⣬¶ø±«²ª»áÊÔͼ½â¾ö°®ÀöË¿µÄÃÕÌâ¡£Ëæ×ÅËüÃǵÄѧϰ£¬°®ÀöË¿»áÉèÖøü¸´ÔÓµÄÃÕÌ⣬¶ø±«²ªÒ²»áÔ½À´Ô½»á½âÃÕ¡£
¾¹ý°®ÀöË¿ÉèÖõĻýľÃÕÌâµÄѵÁ·ºó£¬±«²ª±ã¿ÉÒÔͨÓÃÓÚһϵÁÐÈÎÎñ£¬°üÀ¨°Ú·Å×À×ÓºÍÅÅÁÐÏóÆåÆå×Ó¡£
ͨ³£ÔÚ¶àÖØÈÎÎñ´¦ÀíÖУ¬Éî¶ÈѧϰģÐͱØÐëÔÚÈÎÎñ¼ä½øÐÐÔÙѵÁ·¡£ÀýÈ磬AlphaZero £¨Ò»¿îÆåÀà AI£¬¿ÉÒÔͨ¹ý×ÔÎÒ²©ÞÄÀ´Ñ§Ï°£©»áʹÓõ¥Ò»Ëã·¨½Ì×Ô¼ºÏ¹ú¼ÊÏóÆå¡¢½«ÆåºÍΧÆåµ«Ã¿´ÎÖ»ÄÜÏÂÒ»ÅÌÆå¡£ÀýÈ磬Ϲú¼ÊÏóÆåµÄʱ AlphaZero ²»ÄÜÏÂΧÆå£¬ÏÂΧÆåʱµÄ AlphaZero ²»ÄÜϽ«Æå¡£Òò´Ë£¬Ôì³öÕæÕýÄÜͬʱ´¦Àí¶àÈÎÎñµÄ»úÆ÷£¬ÊÇ×ßÏò¸üͨÓõÄÈ˹¤ÖÇÄܵÀ·ÉϵÄÒ»´óδ½âÄÑÌâ¡£
ѵÁ· AI ͬʱִÐжàÖØÈÎÎñʱ»áÓöµ½Ò»¸öÎÊÌ⣬¼´ÐèÒª´óÁ¿µÄÀý×Ó¡£OpenAI Ôòͨ¹ýѵÁ·°®Àö˿Ϊ±«²ªÉú³ÉÀý×Ó£¬ÓÃÒ»¸ö AI ѵÁ·ÁíÒ»¸ö AI À´±ÜÃâÕâ¸öÎÊÌâ¡£¾¹ýѵÁ·£¬°®Àö˿ѧ»áÁËÉ趨Ŀ±ê£¬±ÈÈ罨ÔìÒ»×ù»ýľËþ£¬È»ºó°ÑËü¼ñÆðÀ´²¢¼ÓÒÔÆ½ºâ¡£±«²ªÑ§»áÁËÀûÓÃÐéÄâ»·¾³µÄÊôÐÔ£¬Èçͨ¹ýĦ²ÁÁ¦À´×¥È¡ºÍÐýתÎïÌå¡£
½ØÖÁĿǰ£¬ÐéÄâÏÖʵµÄѵÁ·Ö»ÔÚÐéÄâ»·¾³ÖнøÐУ¬µ« OpenAI ºÍÆäËû»ú¹¹µÄÑо¿ÈËÔ±ÕýÔÚ½«ÐéÄâ»·¾³ÖÐѵÁ·µÄÄ£ÐÍ×ªÒÆµ½ÎïÀí»·¾³ÖУ¬ÇÒÔ½À´Ô½ÓÐÆðÉ«¡£¾ÝϤ£¬Ä£Äâ»·¾³¿ÉÒÔÈà AI ÔÚ¶Ìʱ¼äÄÚ´¦Àí´óÐÍÊý¾Ý¼¯£¬È»ºóÑо¿ÈËÔ±»á¸ù¾ÝÏÖʵÊÀ½çµÄ»·¾³ÔÙ¶ÔÆä½øÐÐ΢µ÷¡£
¸ÃÍŶӵÄÑо¿ÈËÔ±±íʾ£¬ËûÃǵÄ×îÖÕÄ¿±êÊÇѵÁ·ÕâЩ»úе±ÛÈ¥½â¾öÈËÀà¿ÉÄÜÒªÇóËü×öµÄÈκÎÈÎÎñ¡£Óë GPT-3 Ò»Ñù£¨GPT-3 ÊÇÒ»¸öÄÜÒÔ¸÷ÖÖ²»Í¬·½Ê½Ê¹ÓÃÓïÑÔµÄÓïÑÔÄ£ÐÍ£©£¬ÕâЩ»úÆ÷ÈËÊÖ±ÛÊÇ OpenAI ´òÔì¶àÈÎÎñÈ˹¤ÖÇÄÜÕûÌåÄ¿±êµÄÒ»²¿·Ö£¬¶øÊ¹ÓÃÒ»¸ö AI À´ÑµÁ·ÁíÒ»¸ö AI Ò²ÐíÊÇÆäÖеĹؼüËùÔÚ¡£
-End-
²Î¿¼£º
https://www.technologyreview.com/2021/01/22/1016633/robot-arms-smarter-self-play-reinforcement-learning-training-openai/