Coder Social home page Coder Social logo

Comments (11)

shuxueslpi avatar shuxueslpi commented on September 11, 2024

from chatglm-6b-qlora.

cheney369 avatar cheney369 commented on September 11, 2024

那我如果只指定一张卡去训练,是可以跑下实验的是吗?有试了以下方法,也是不行。
import os
os.environ("CUDA_VISIBLE_DEVICE") = "0"

在加载model操作后,model.to(cuda:0)

from chatglm-6b-qlora.

shuxueslpi avatar shuxueslpi commented on September 11, 2024

from chatglm-6b-qlora.

cheney369 avatar cheney369 commented on September 11, 2024

那个环境变量好像是CUDA_VISIBLE_DEVICES

是的打错了,不好意思。不过指定单张16G的卡训练时,也会报OOM错误。
Xnip2023-07-11_09-24-06

更新一下,如果是微调chatglm1的话是可以,chatglm2会出错,同时chatglm2的文件(除权重外)都已经更新到最新的了,是不要权重也要一起更新成最新的才行?

from chatglm-6b-qlora.

shuxueslpi avatar shuxueslpi commented on September 11, 2024

@cheney369 #14
看这个,和你一样的报错,可能是transformers的版本问题

from chatglm-6b-qlora.

cheney369 avatar cheney369 commented on September 11, 2024

@cheney369 #14
看这个,和你一样的报错,可能是transformers的版本问题

确实是transformers的版本问题,现在显存这部分没问题了。但是出现一个新的问题,就是在这一句中会报错:
question_length = input_ids.index(tokenizer.bos_token_id)
查了一下原因是因为chatglm2中没有bos_token_id,而chatglm1是有的,所以在训练2的时候这行需要进行替换。

from chatglm-6b-qlora.

shuxueslpi avatar shuxueslpi commented on September 11, 2024

@cheney369 你用的貌似不是我最新的代码,这部分应该是改过了的

from chatglm-6b-qlora.

cheney369 avatar cheney369 commented on September 11, 2024

@cheney369 你用的貌似不是我最新的代码,这部分应该是改过了的

确实是,实在抱歉。

from chatglm-6b-qlora.

2512309z avatar 2512309z commented on September 11, 2024

@cheney369 #14
看这个,和你一样的报错,可能是transformers的版本问题

确实是transformers的版本问题,现在显存这部分没问题了。但是出现一个新的问题,就是在这一句中会报错: question_length = input_ids.index(tokenizer.bos_token_id) 查了一下原因是因为chatglm2中没有bos_token_id,而chatglm1是有的,所以在训练2的时候这行需要进行替换。

请问你最后用的是哪个版本的transformer?我也是OOM,没办法只有把batchsize改成1才能跑起来

from chatglm-6b-qlora.

cheney369 avatar cheney369 commented on September 11, 2024

@cheney369 #14
看这个,和你一样的报错,可能是transformers的版本问题

确实是transformers的版本问题,现在显存这部分没问题了。但是出现一个新的问题,就是在这一句中会报错: question_length = input_ids.index(tokenizer.bos_token_id) 查了一下原因是因为chatglm2中没有bos_token_id,而chatglm1是有的,所以在训练2的时候这行需要进行替换。

请问你最后用的是哪个版本的transformer?我也是OOM,没办法只有把batchsize改成1才能跑起来

transformers == 4.30.2. batch_size=4的时候单卡显存占用7G.

from chatglm-6b-qlora.

2512309z avatar 2512309z commented on September 11, 2024

@cheney369 #14
看这个,和你一样的报错,可能是transformers的版本问题

确实是transformers的版本问题,现在显存这部分没问题了。但是出现一个新的问题,就是在这一句中会报错: question_length = input_ids.index(tokenizer.bos_token_id) 查了一下原因是因为chatglm2中没有bos_token_id,而chatglm1是有的,所以在训练2的时候这行需要进行替换。

请问你最后用的是哪个版本的transformer?我也是OOM,没办法只有把batchsize改成1才能跑起来

transformers == 4.30.2. batch_size=4的时候单卡显存占用7G.

我的版本没问题,我可能是自己编辑的单条训练数据集字符过长了,数据集太难编辑了,不知道什么样的数据集才算是好的数据集,哎。。。。

from chatglm-6b-qlora.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.