OpenClaw-RLã§å¦ã¶Agentic RLã®å ±é…¬è¨è¨ˆ

ã¯ã˜ã‚ã«

ã“ã‚“ã«ã¡ã¯ï¼LayerXã®ãƒã‚¯ãƒ©ã‚¯äº‹æ¥éƒ¨ã§æ©Ÿæ¢°å¦ç¿’ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’ã—ã¦ã„ã‚‹å®‡éƒ½(@kuto_bopro)ã§ã™ã€‚æœ€è¿‘ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã«é–¢ã™ã‚‹è«–æ–‡ã‚’èªã‚“ã§ã„ã‚‹ã¨ã€ŒSelf-Evolvingã€ã¨ã„ã†ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã‚’æŒã¤è«–æ–‡ã‚’ã‚ˆãç›®ã«ã—ã¾ã™ã€‚Self-Evolvingã¯è‡ªå·±é€²åŒ–ãƒ»è‡ªå·±æ”¹å–„ã‚’æ„å‘³ã—ã¦ãŠã‚Šã€è‡ªå‹•ã§æ€§èƒ½ãŒä¸ŠãŒã£ã¦ã„ãAIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ–‡è„ˆã§ä½¿ã‚ã‚Œã¾ã™ã€‚

A Survey of Self-Evolving Agents, Figure3ã‚ˆã‚Šå¼•ç”¨

arxiv.org

ä¸Šè¨˜ã®ã‚µãƒ¼ãƒ™ã‚¤è«–æ–‡ã§ã€ Self-Evolving Agentã«é–¢ã—ã¦æ•´ç†ã•ã‚Œã¦ãŠã‚Šã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®é€²åŒ–å¯¾è±¡(What)ã¯ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã€ãƒ¢ãƒ‡ãƒ«ã€ãƒ„ãƒ¼ãƒ«ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã¨å¤šå²ã«æ¸¡ã£ã¦ã„ã¾ã™ã€‚

å¾“æ¥ã®æ©Ÿæ¢°å¦ç¿’ã§ã¯æ›´æ–°å¯¾è±¡ã¯ãƒ¢ãƒ‡ãƒ«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ã¿ã§ã—ãŸãŒã€LLMã«å¯¾ã—ã¦ã¯ãã‚Œä»¥å¤–ã®é¸æŠžè‚¢ãŒã‚ã‚‹ã®ãŒç‰¹å¾´çš„ã§ã™ã€‚ç‰¹ã«ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã«é–¢ã—ã¦ã¯ã‚³ãƒ¼ãƒ‡ã‚£ãƒ³ã‚°ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ä½¿ç”¨ã™ã‚‹éš›ã«AGENTS.mdã‚„Skillsã‚’ä½œæˆãƒ»æ›´æ–°ã™ã‚‹ã“ã¨ã§AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ€§èƒ½ã‚’æ”¹å–„ã™ã‚‹ã“ã¨ãŒå¯èƒ½ã§ã‚ã‚‹ãŸã‚å¤šãã®æ–¹ãŒé¦´æŸ“ã¿æ·±ã„ã®ã§ã¯ãªã„ã‹ã¨æ€ã„ã¾ã™ã€‚

ä¸€æ–¹ã€Fine Tuningã«ã‚ˆã£ã¦ãƒ¢ãƒ‡ãƒ«è‡ªä½“ã‚’æ›´æ–°ã™ã‚‹ã‚¢ãƒ—ãƒãƒ¼ãƒã¯ã€å®Ÿæ–½ã‚³ã‚¹ãƒˆã®å¤§ãã•ã‹ã‚‰ç¾çŠ¶ã§ã¯é¸æŠžè‚¢ã¨ã—ã¦ä¸ŠãŒã‚Šã«ãã„ã®ãŒå®Ÿæƒ…ã§ã™ã€‚ã—ã‹ã—Fine Tuningã«ã¯ã€æ•°ç†çš„ãªãƒ—ãƒã‚»ã‚¹ã‚’é€šã˜ã¦ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰ç›´æŽ¥å¦ç¿’ã§ãã‚‹ã“ã¨ã€ã¾ãŸã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã®è‚¥å¤§åŒ–ã‚’æŠ‘ãˆã‚‰ã‚Œã‚‹ã“ã¨ã¨ã„ã£ãŸåˆ©ç‚¹ã‚‚ã‚ã‚Šã¾ã™ã€‚

ã“ã†ã„ã£ãŸèƒŒæ™¯ã‚‚è¸ã¾ãˆã€æœ¬è¨˜äº‹ã§ã¯AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ãƒ¢ãƒ‡ãƒ«ã‚’å¼·åŒ–å¦ç¿’ã§æ”¹å–„ã™ã‚‹Agentic RLã¨ã„ã†ã‚¢ãƒ—ãƒãƒ¼ãƒã«ã¤ã„ã¦ã€OpenClaw-RLã¨ã„ã†ãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆã‚’é¡Œæã«ç´¹ä»‹ã—ã¾ã™ã€‚

github.com

Agentic RLã¨ã¯

Agentic RLï¼ˆã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆåž‹å¼·åŒ–å¦ç¿’ï¼‰ã¨ã¯ã€AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒç’°å¢ƒã¨å¯¾è©±ã—ãªãŒã‚‰ã€å¼·åŒ–å¦ç¿’ã«ã‚ˆã£ã¦è‡ªèº«ã®æ€§èƒ½ã‚’ç¶™ç¶šçš„ã«å‘ä¸Šã•ã›ã‚‹æ‰‹æ³•ã§ã™ã€‚å¼·åŒ–å¦ç¿’ã¯ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒç’°å¢ƒã¨è©¦è¡ŒéŒ¯èª¤ã‚’ç¹°ã‚Šè¿”ã—ãªãŒã‚‰ã€å¾—ã‚‰ã‚Œã‚‹å ±é…¬ãŒæœ€å¤§ã«ãªã‚‹ã‚ˆã†è¡Œå‹•ã‚’å¦ç¿’ã—ã¦ã„ãæ©Ÿæ¢°å¦ç¿’ã®æ‰‹æ³•ã§ã‚ã‚Šã€è¿‘å¹´ã®LLMã®æŽ¨è«–èƒ½åŠ›ã‚„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ€§èƒ½ã®å‘ä¸Šã‚’æ”¯ãˆã‚‹ä¸å¿ƒçš„ãªæŠ€è¡“ã¨ãªã£ã¦ã„ã¾ã™ã€‚

AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æŒ¯ã‚‹èˆžã„ã‚’å¼·åŒ–å¦ç¿’ã®æž çµ„ã¿ã§æ•´ç†ã™ã‚‹ã¨ã€æ¬¡ã®ã‚ˆã†ã«å®šç¾©ã§ãã¾ã™ã€‚

çŠ¶æ…‹: ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆï¼ˆéŽåŽ»ã®è¡Œå‹•ãƒ»è¦³æ¸¬ã®å±¥æ´ï¼‰
è¡Œå‹•: ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å¿œç”ï¼ˆãƒ†ã‚ã‚¹ãƒˆç”Ÿæˆã€ãƒ„ãƒ¼ãƒ«åˆ©ç”¨ãªã©ï¼‰
è¦³æ¸¬: ãƒ¦ãƒ¼ã‚¶ãƒ¼ã®å¿œç”ã‚„ç’°å¢ƒã‹ã‚‰ã®ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ï¼ˆã‚¨ãƒ©ãƒ¼æƒ…å ±ãªã©ï¼‰
å ±é…¬: å„è¡Œå‹•ã«å¯¾ã™ã‚‹ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°

OpenClaw-RLã®ã‚³ãƒ³ã‚»ãƒ—ãƒˆ

ã‚³ãƒ¼ãƒ‡ã‚£ãƒ³ã‚°ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚„ãƒ‘ãƒ¼ã‚½ãƒŠãƒ©ã‚¤ã‚ºã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’åˆ©ç”¨ã™ã‚‹éš›ã€å¯¾è©±ä¸ã«ç™ºç”Ÿã™ã‚‹ãƒ¦ãƒ¼ã‚¶å¿œç”ã‚„ç’°å¢ƒãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã¯ã€å€‹äººåˆ©ç”¨ã®è¦³ç‚¹ã§ã¯(ãƒ¡ãƒ¢ãƒªä¿å˜ã‚’é™¤ã„ã¦)å¤šãã®å ´åˆæ”¹å–„ã«ã¯åˆ©ç”¨ã•ã‚Œãšã«æ¨ã¦ã‚‰ã‚Œã¾ã™ã€‚

ã“ã®èª²é¡Œã«å¯¾ã—ã¦OpenClaw-RLã¯ã€å¯¾è©±ãƒã‚°ã‹ã‚‰å¦ç¿’ä¿¡å·ã‚’å¾—ã¦ã€éžåŒæœŸã®Agentic RLã‚’å®Ÿè¡Œã™ã‚‹ã“ã¨ã§ã€Œå¯¾è©±ã™ã‚‹ã ã‘ã§ãƒ¢ãƒ‡ãƒ«ãŒè³¢ããªã‚‹ã€ã¨ã„ã†ä»•çµ„ã¿ã‚’è¨è¨ˆã—ã¦ã„ã¾ã™ã€‚

ãªãŠã€åå‰ã«ã‚ã‚‹é€šã‚ŠAIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¨ã—ã¦OpenClawã‚’å‹•ã‹ã™æƒ³å®šã§è¨è¨ˆã•ã‚ŒãŸã‚‚ã®ã«ãªã£ã¦ã„ã¾ã™ã€‚OpenClawã«ã¤ã„ã¦ã¯ä»¥ä¸‹ã‚’å‚ç…§ãã ã•ã„ã€‚

openclaw.ai

OpenClaw-RLã®æ¦‚è¦ã‚’è¡¨ã—ãŸã®ãŒã“ã¡ã‚‰ã®å›³ã§ã™ã€‚

OpenClawã®ã‚ˆã†ãªAIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æŽ¨è«–ã‚’å€‹äººç’°å¢ƒã‚„ã‚¯ãƒ©ã‚¦ãƒ‰ç’°å¢ƒã§å‹•ã‹ã™æƒ³å®š
AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¨ã®å¯¾è©±ã‚’è¡Œã†ã¨ã€ãã®ãƒã‚°ã‚’ãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã«å¼·åŒ–å¦ç¿’ã‚µãƒ¼ãƒã«é€£æºã—éžåŒæœŸã§å¼·åŒ–å¦ç¿’ã‚’è¡Œã†
æ›´æ–°ã•ã‚ŒãŸãƒ¢ãƒ‡ãƒ«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’å¦ç¿’ã‚µãƒ¼ãƒã‹ã‚‰AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒå®Ÿéš›ã«å‹•ä½œã™ã‚‹æŽ¨è«–ç’°å¢ƒã«é€£æºã™ã‚‹

å¯¾è©±ãƒã‚°ã‹ã‚‰ã©ã†å¦ç¿’ä¿¡å·ã‚’å¾—ã‚‹ã‹

OpenClaw-RLã®è«–æ–‡ã§ã¯éžåŒæœŸå¼·åŒ–å¦ç¿’ã‚„æ±Žç”¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãªã©ã„ãã¤ã‹é¢ç™½ã„ãƒˆãƒ”ãƒƒã‚¯ã¯ã‚ã‚Šã¾ã™ãŒã€ä»Šå›žã¯ãƒ‘ãƒ¼ã‚½ãƒŠãƒ©ã‚¤ã‚ºã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆå‘ã‘ã«å®Ÿéš›ã®å¯¾è©±ãƒã‚°ã‹ã‚‰ã©ã®ã‚ˆã†ã«å¦ç¿’ä¿¡å·ã‚’å–å¾—ã™ã‚‹ã‹ã‚’ãƒ†ãƒ¼ãƒžã«ç´¹ä»‹ã—ã¾ã™ã€‚

äº‹å¾Œå¦ç¿’ã¨ã®é•ã„

ç¾åœ¨ç§ãŸã¡ã®èº«ã®å›žã‚Šã§åˆ©ç”¨ã•ã‚Œã‚‹AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å¤šãã¯äº‹å¾Œå¦ç¿’ã®æ®µéšŽã§Agentic RLãŒè¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚ã“ã®æ™‚ã‚ˆãåˆ©ç”¨ã•ã‚Œã‚‹ã®ãŒã€æ£è§£ãŒã‚ã‚‹æ•°å¦ã‚¿ã‚¹ã‚¯ã‚„ãƒ†ã‚¹ãƒˆã‚„ã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ã«ã‚ˆã‚‹æ¤œè¨¼ãŒå¯èƒ½ãªã‚³ãƒ¼ãƒ†ã‚£ãƒ³ã‚°ã‚¿ã‚¹ã‚¯ã«å¯¾ã—ã¦å¼·åŒ–å¦ç¿’ã‚’è¡Œã†ã¨ã„ã†ã‚‚ã®ã§ã™ã€‚ã“ã‚Œã¯RLVR(Reinforcement Learning with Verifiable Rewards)ã¨å‘¼ã°ã‚Œã¦ã„ã¾ã™ã€‚

ã“ã†ã„ã£ãŸäº‹å¾Œå¦ç¿’ã§ä½¿ã‚ã‚Œã‚‹ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯ã€ã‚ã‚‰ã‹ã˜ã‚æ¤œè¨¼ç’°å¢ƒã‚„å ±é…¬ãŒæ•´å‚™ã•ã‚ŒãŸã‚‚ã®ã§ã™ã€‚ä¸€æ–¹ã€ä»Šå›žå¯¾è±¡ã¨ã™ã‚‹ã®ã¯ãƒ¦ãƒ¼ã‚¶ã¨ã®ã‚¤ãƒ³ã‚¿ãƒ©ã‚¯ãƒ†ã‚£ãƒ–ãªã‚„ã‚Šå–ã‚ŠãŒå«ã¾ã‚Œã‚‹å®Ÿéš›ã®å¯¾è©±ãƒã‚°ã§ã™ã€‚ã“ã®ã‚ˆã†ãªãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã®å¯¾è©±ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã‚‹å ´åˆã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã§æ˜Žç¢ºãªæ£è§£ã‚’å®šç¾©ã™ã‚‹ã®ãŒé›£ã—ã„ã‚±ãƒ¼ã‚¹ã‚‚å¤šãã€å ±é…¬ã‚’ã©ã†è¨è¨ˆã™ã‚‹ã‹ãŒé‡è¦ãªãƒã‚¤ãƒ³ãƒˆã¨ãªã‚Šã¾ã™ã€‚

OpenClaw-RLã®å ±é…¬è¨è¨ˆ

OpenClaw-RLã§ã¯ï¼’ã¤ã®å¦ç¿’ä¿¡å·ã‚’åˆ©ç”¨ã—ã¦ã„ã¾ã™ã€‚ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€ã€€

â‘ Binaryå ±é…¬

ã“ã¡ã‚‰ã¯ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã‚’ã‚‚ã¨ã«ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã®è‰¯ã—æ‚ªã—ã‚’åˆ¤å®šã™ã‚‹å¦ç¿’ä¿¡å·ã¨ã—ã¦æ©Ÿèƒ½ã—ã¾ã™

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã®æ¬¡ã«å¾—ã‚‰ã‚ŒãŸè¦³æ¸¬ï¼ˆãƒ¦ãƒ¼ã‚¶å¿œç”ãƒ»ç’°å¢ƒãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ï¼‰ã‚’è©•ä¾¡ç”¨LLMã«æ¸¡ã™
è¦³æ¸¬ã«å¯¾ã—è©•ä¾¡ç”¨LLMã§ä»¥ä¸‹ã®ã„ãšã‚Œã‹ã‚’è¤‡æ•°å›žå‡ºåŠ›ã•ã›å¤šæ•°æ±ºã§å ±é…¬ã‚’æ±ºå®š
- +1: è‰¯ã„
- 0: ä½•ã‚‚ãªã—
- -1: æ‚ªã„

ã¤ã¾ã‚ŠAIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã«ã‚ˆã£ã¦ç™ºç”Ÿã—ãŸè¦³æ¸¬ã«å¯¾ã—ã¦AIã®ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã‚’ã‚‚ã¨ã«å ±é…¬ã‚’ç”Ÿæˆã™ã‚‹ã¨ã„ã†ã‚‚ã®ã§ã™ã€‚ã“ã®ã‚ˆã†ã«æ¤œè¨¼å¯èƒ½ã§ãªã„ã‚¿ã‚¹ã‚¯ã«å¯¾ã™ã‚‹å ±é…¬è¨è¨ˆã¨ã—ã¦AIã®ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã«ã‚ˆã‚‹å ±é…¬ç”Ÿæˆã¯ä»–ã®è«–æ–‡ã§ã‚‚æŽ¡ç”¨ã•ã‚Œã¦ãŠã‚Šæœ‰åŠ›ãªæ‰‹æ®µã®1ã¤ã§ã™ã€‚OpenClaw-RLã®å·¥å¤«ç‚¹ã¨ã—ã¦1å›žã®ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã ã¨å ±é…¬ãŒä¸å®‰å®šã«ãªã‚‹ã“ã¨ã‹ã‚‰å¤šæ•°æ±ºã‚’å–ã‚‹æ–¹æ³•ãŒæŽ¡ç”¨ã•ã‚Œã¦ã„ã¾ã™ã€‚ä¸€æ–¹ã§å ±é…¬ãŒè©•ä¾¡ç”¨LLMã®æ€§èƒ½ã«ä¾å˜ã™ã‚‹ã€ãƒ¦ãƒ¼ã‚¶å¿œç”ã®ãŸã³ã«è©•ä¾¡ç”¨LLMã®æŽ¨è«–ã‚’è£ã§å›žã™å¿…è¦ãŒã‚ã‚ŠæŽ¨è«–ã‚³ã‚¹ãƒˆãŒã‹ã‹ã‚‹ã¨ã„ã†èª²é¡Œã¯ã‚ã‚Šã¾ã™ã€‚

â‘¡è’¸ç•™å ±é…¬

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã®æ¬¡ã«å¾—ã‚‰ã‚ŒãŸè¦³æ¸¬ï¼ˆãƒ¦ãƒ¼ã‚¶å¿œç”ãƒ»ç’°å¢ƒãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ï¼‰ã‚’è©•ä¾¡ç”¨LLMã«æ¸¡ã™
æœ‰ç›Šã¨åˆ¤å®šã—ãŸå ´åˆã«ä»¥ä¸‹ã®2ã¤ã®ãƒ¢ãƒ‡ãƒ«ã‚’ç”¨æ„ã™ã‚‹
- æ•™å¸«ãƒ¢ãƒ‡ãƒ«ï¼šã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã«è¦³æ¸¬ã‚’åŠ ãˆã¦ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã‚’å‡ºåŠ›
- ç”Ÿå¾’ãƒ¢ãƒ‡ãƒ«ï¼šã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã«è¦³æ¸¬ã‚’åŠ ãˆãšã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã‚’å‡ºåŠ›(å…ƒã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ãã®ã‚‚ã®)
ç”Ÿå¾’ãƒ¢ãƒ‡ãƒ«ã®å‡ºåŠ›ã‚’æ•™å¸«ãƒ¢ãƒ‡ãƒ«ã®å‡ºåŠ›ã«è¿‘ã¥ã‘ã‚‹ã‚ˆã†ã«å ±é…¬â€»2ã‚’æ±ºå®š

â€»1 Binaryå ±é…¬ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã‚’LLMã§è©•ä¾¡ã—ã¦ã„ã‚‹ä¸€æ–¹ã€è’¸ç•™å ±é…¬ã¯ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã®æœ‰ç›Šã•ã‚’LLMã§è©•ä¾¡ã¨ã„ã†é•ã„ãŒã‚ã‚‹
â€»2 åŽ³å¯†ã«ã¯ãƒˆãƒ¼ã‚¯ãƒ³å˜ä½ã®ã‚¢ãƒ‰ãƒãƒ³ãƒ†ãƒ¼ã‚¸

â‘ ã®Binaryå ±é…¬ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å¿œç”å…¨ä½“ã«å¯¾ã—ã¦é›¢æ•£çš„ãªå ±é…¬ãŒä¸Žãˆã‚‰ã‚Œã¾ã™ãŒã€è’¸ç•™å ±é…¬ã¯ãƒˆãƒ¼ã‚¯ãƒ³å˜ä½ã§æ•™å¸«ãƒ¢ãƒ‡ãƒ«ã‹ã‚‰ç¢ºçŽ‡åˆ†å¸ƒã®é•ã„ã«å¿œã˜ãŸãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ãŒä¸Žãˆã‚‰ã‚Œã¾ã™ã€‚ãã®ãŸã‚ã€è¦³æ¸¬ã«å…·ä½“çš„ãªæŒ‡ç¤ºãŒå«ã¾ã‚Œã¦ã„ã‚‹å ´åˆã«ã€ãã®æŒ‡ç¤ºã‚’è¸ã¾ãˆãŸè¡Œå‹•ã‚’ãƒ¢ãƒ‡ãƒ«ã«ç›´æŽ¥å¦ç¿’ã•ã›ã‚‰ã‚Œã‚‹ã¨ã„ã†æ„å‘³ã§ã€ã‚ˆã‚Šå¯†ãªãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã¨ã„ãˆã¾ã™ã€‚

ä½™è«‡ã§ã™ãŒã€é€šå¸¸ã®è’¸ç•™ã¯å¤§ããªæ•™å¸«ãƒ¢ãƒ‡ãƒ«ã‹ã‚‰å°ã•ãªç”Ÿå¾’ãƒ¢ãƒ‡ãƒ«ã¸æ€§èƒ½ã‚’å¼•ãç¶™ãç”¨é€”ã§ä½¿ã‚ã‚Œã‚‹ã“ã¨ãŒå¤šã„ã§ã™ã€‚ä»Šå›žã®å ´åˆã¯ãƒ¢ãƒ‡ãƒ«è‡ªä½“ã¯åŒã˜ã§ã€ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã®æœ‰ç„¡ã«ã‚ˆã£ã¦æ•™å¸«ã¨ç”Ÿå¾’ã‚’åˆ†ã‘ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯è‡ªå·±è’¸ç•™ã‚„ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆè’¸ç•™ã¨å‘¼ã°ã‚Œã‚‹æ‰‹æ³•ã®1ã¤ã§ã€åˆ¥ãƒ¢ãƒ‡ãƒ«ã‚’ç”¨æ„ã—ãªãã¦æ¸ˆã‚€æ‰‹è»½ã•ã‚‚ã‚ã‚Šã€æœ€è¿‘ã®è«–æ–‡ã§ã‚‚ã‚ˆãè¦‹ã‹ã‘ã‚‹æ‰‹æ³•ã§ã™ã€‚

å¦ç¿’æ™‚ã®æ³¨æ„ç‚¹

ã“ã“ã¾ã§OpenClaw-RLã§åˆ©ç”¨ã•ã‚Œã¦ã„ã‚‹å ±é…¬ã«ã¤ã„ã¦èª¬æ˜Žã—ã¾ã—ãŸãŒå®Ÿéš›ã«ã“ã‚Œã‚‰ã®å ±é…¬ã‚’å…ƒã«å¦ç¿’ã‚’ã™ã‚‹ä¸Šã§ã®æ³¨æ„ç‚¹ã‚‚ã‚ã‚Šã¾ã™ã€‚ãã®1ã¤ãŒGRPOã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ãã®ã¾ã¾åˆ©ç”¨ã§ããªã„ã¨ã„ã†ç‚¹ã§ã™ã€‚

LLMã«å¯¾ã™ã‚‹å¼·åŒ–å¦ç¿’ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã¯GRPOãŒã‚ˆãæŽ¡ç”¨ã•ã‚Œã¦ã„ã¾ã™ã€‚GRPOã¯1ã¤ã®ãƒ—ãƒãƒ³ãƒ—ãƒˆã«å¯¾ã—ã¦è¤‡æ•°ã®æŽ¨è«–ï¼ˆrolloutï¼‰ã‚’å®Ÿè¡Œã—ç›¸å¯¾è©•ä¾¡ã‚’è¡Œã†ã“ã¨ã§ã€å¾“æ¥ä¸»æµã ã£ãŸPPOã§å¿…è¦ã¨ã•ã‚Œã¦ã„ãŸä¾¡å€¤è©•ä¾¡ãƒ¢ãƒ‡ãƒ«ã‚’ä¸è¦ã«ã§ãã‚‹ã®ãŒç‰¹å¾´ã§ã™ã€‚ ã—ã‹ã—å®Ÿéš›ã®å¯¾è©±ãƒã‚°ã‚’ä½¿ã†å ´åˆã€ã‚ã‚‹è¡Œå‹•ã«å¯¾ã—ã¦å¾—ã‚‰ã‚Œã‚‹ãƒ¦ãƒ¼ã‚¶å¿œç”ï¼ˆè¦³æ¸¬ï¼‰ã¯1ã¤ã ã‘ã§ã™ã€‚LLMã®æŽ¨è«–è‡ªä½“ã¯è£ã§è¤‡æ•°å›žå®Ÿæ–½ã§ãã‚‹ã‚‚ã®ã®ã€ãã®è¡Œå‹•ã«å¯¾ã™ã‚‹è¦³æ¸¬ã¯1ã¤ã—ã‹å¾—ã‚‰ã‚Œãªã„ãŸã‚ã€å¦ç¿’ã«åˆ©ç”¨å¯èƒ½ãªrolloutã‚‚å®Ÿè³ª1ã¤ã¨ãªã‚Šã¾ã™ã€‚ãã®ãŸã‚è¤‡æ•°ã®rolloutã‚’å‰æã¨ã™ã‚‹GRPOã¯ãã®ã¾ã¾ã§ã¯ä½¿ãˆã¾ã›ã‚“ã€‚OpenClaw-RLã§ã¯å ±é…¬ã‚’ãã®ã¾ã¾ç›¸å¯¾è©•ä¾¡å€¤ã¨ã—ã¦ä½¿ã†ç°¡æ˜“çš„ãªæ–¹æ³•ã‚’æŽ¡ç”¨ã—ã¦ãŠã‚Šã€ã“ã®ç‚¹ã«ã¤ã„ã¦ã¯æ”¹å–„ã®ä½™åœ°ãŒã‚ã‚Šãã†ã§ã™ã€‚

ãŠã‚ã‚Šã«

OpenClaw-RLã‚’é€šã—ã¦ã€å¯¾è©±ãƒã‚°ã‹ã‚‰Agentic RLã‚’ã™ã‚‹å ´åˆã®å¦ç¿’ä¿¡å·è¨è¨ˆã«ã¤ã„ã¦ç´¹ä»‹ã—ã¾ã—ãŸã€‚ä»Šå›žã¯å‰²æ„›ã—ãŸã®ã§ã™ãŒã€éžåŒæœŸã®å¼·åŒ–å¦ç¿’ã«ã‚ˆã‚‹ãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã®ãƒ¢ãƒ‡ãƒ«æ›´æ–°ã¨ã„ã†ã‚³ãƒ³ã‚»ãƒ—ãƒˆã‚‚é¢ç™½ã„ãªã¨æ„Ÿã˜ãŸã®ã§èˆˆå‘³ãŒã‚ã‚‹æ–¹ã¯åŽŸè«–æ–‡ã‚‚èªã‚“ã§ã¿ã¦ãã ã•ã„ã€‚

arxiv.org

ä»Šå›žã¯ãƒ¢ãƒ‡ãƒ«æ›´æ–°ã‚’å‰æã¨ã—ãŸè©±é¡Œã§ã—ãŸãŒã€å¤šãã®å ´åˆå˜ç´”ãªãƒ‘ãƒ¼ã‚½ãƒŠãƒ©ã‚¤ã‚ºã‚„æ€§èƒ½å‘ä¸Šã¯ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆãƒ»ãƒ¡ãƒ¢ãƒªç®¡ç†ã®æ–¹ãŒã‚·ãƒ³ãƒ—ãƒ«ã§åŠ¹æžœçš„ãªå ´é¢ãŒå¤šã„ã¨ã„ã†ã®ãŒå®Ÿæƒ…ã ã¨æ€ã„ã¾ã™ã€‚ãŸã ã—å†’é ã§ã‚‚æŒ™ã’ãŸè‡ªå·±é€²åŒ–ã¨ã„ã†æ–¹å‘æ€§ã¯ä»Šå¾Œã®AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆé–‹ç™ºã«ãŠã„ã¦ã‚‚ã¾ã™ã¾ã™é‡è¦ã«ãªã£ã¦ã„ãã¨æ€ã„ã¾ã™ã—ã€ãã®é¸æŠžè‚¢ã®1ã¤ã¨ã—ã¦ä»Šå›žç´¹ä»‹ã—ãŸAgentic RLã‚‚ç¾å®Ÿçš„ãªæ‰‹æ®µã¨ã—ã¦æ³¨ç›®ã•ã‚Œã¦ã„ãã®ã§ã¯ãªã„ã§ã—ã‚‡ã†ã‹ã€‚

æœ€å¾Œã«ãªã‚Šã¾ã—ãŸãŒã€LayerXã§ã¯æ©Ÿæ¢°å¦ç¿’ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’å‹Ÿé›†ã—ã¦ãŠã‚Šã¾ã™ï¼ ãƒ¦ãƒ¼ã‚¶ä¾¡å€¤ã‚’ç¬¬ä¸€ã«è€ƒãˆãŸML/AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ç¤¾ä¼šå®Ÿè£…ã‚’é«˜é€Ÿã«é€²ã‚ã¦ãŠã‚Šã¨ã¦ã‚‚é¢ç™½ã„ç’°å¢ƒã§ã™ï¼ èˆˆå‘³ã‚ã‚‹æ–¹ã¯ãœã²ã“ã¡ã‚‰ã‹ã‚‰ã”å¿œå‹Ÿãã ã•ã„ã€‚

open.talentio.com