WangZeJun's Projects
A C++ implementation of the aho corasick pattern search algorithm
BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)
一个基于预训练的句向量生成工具
基于 BERT 模型的中文文本分类工具
基于 pytorch 的 bert 实现和下游任务微调
BLOOM 模型的指令微调
基于 LoRA 和 P-Tuning v2 的 ChatGLM-6B 高效参数微调
100+ Chinese Word Vectors 上百种预训练中文词向量
中文自然语言推理与语义相似度数据集
中文纠错数据集汇总
一个非常高效的字符串匹配工具,支持正向/反向最大匹配分词和多模式字符串精确匹配
A clone of Darts (Double-ARray Trie System)
高性能文本 Tokenizer 库
基于 Electra 预训练模型的中文拼写检查
An effective tool for solving LCS problems
Large-scale exact string matching tool
Firefly(流萤): 中文对话式大语言模型
基于中文 GPT2 预训练模型的文本分类微调
基于中文 GPT2 预训练模型的语句困惑度计算
Learn regex the easy way
Learn Unicode the easy way
基于 onnxruntime 推理引擎的中文 ltp 词法分析
大语言模型指令调优工具(支持 FlashAttention)
Mathematical derivation and pure Python code implementation of machine learning algorithms.
A high-performance REST Toolkit written in C++
中文分句
Two-stage SimBERT distillation
A bridge between Unicode encoded strings and std::string.
Get hardware information, header-only