LLM参数内含大量知识,具有一定的逻辑能力,但是想要作为机器人的控制策略还需要进一步加强。但是LLM结合思维链可以生成更加完备的逻辑。本项目将Python语言作为一种思维链的中间表达。由LLM生成这种中间表达的思维链,然后再执行这些Python文件,进而控制机械臂。通过少量示例(few-shot prompting),LLMs 能够自主地重新组合 API 调用,生成新的策略代码
本项目,仅作为复旦大学课程作业。
- CPU: Intel(R) Xeon(R) Gold 6430 或 Intel(R) Xeon(R) Gold 6430
- Memory:120G 以上
- GPU:L20-48G 或 RTX 4090-24G
- OS: Ubuntu 22.04.1 LTS
- NeuralChat服务端使用Meta-Llama-3-70B-Instruct生成的Policy质量更高
- 70B模型代码质量更高,依自己情况决定是否要量化
- Server端的RestFul API 需要进行调整以适配OpenAI的调用接口,主要调整/v1/completions接口,调整内容,见《操作手册.pdf》
- 对于temperature应该始终最小,这样生成的Policy代码质量更高。
参考代码:https://github.com/google-research/google-research/tree/master/code_as_policies