The voluntexi.github.io from voluntexi

Prompt Learning | 威伦特

https://voluntexi.github.io/prompt-learning/

Prompt Learning 的本质就是将所有下游任务统一成预训练任务；以特定的模板，将下游任务的数据转成自然语言形式，从而充分挖掘预训练语言模型本身的能力。

概述
将所有下游任务统一成预训练任务；以特定的模板，将下游任务的数据转成自...

FastText | 威伦特

https://voluntexi.github.io/fasttext/

FastText是在word2vec的cbow和skip-gram基础上得到模型，其最大的特点是模型简洁，训练速度快且文本分类准确率也令人满意

fastText 训练词向量的时候一般是使用Skip-gram模型的变种。在用作文本分类的时候...

中文分词方法总结 | 威伦特

https://voluntexi.github.io/zi-fu-chuan-pi-pei/

本文介绍的是基于字符串匹配的中文分词的方法。

通过按照一定策略将待分析的汉字串与一个“词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。
字符串匹配算法：
在通过确定了词典后，目标句子可能含有很多词典中的词语。它们可能互相重叠...

LONGNET: Scaling Transformers to 1,000,000,000 Tokens | 威伦特

https://voluntexi.github.io/longnet/

前段时间刚介绍了能使模型处理上下文扩展到百万级别的方法，现在微软又提出了一种能扩展到十亿级别的方法（不过有标题党的嫌疑，因为在实验中作者只扩展到了百万级别）

概述
微软研究提出了一种新的Transformer变体：LONGNET，该架构将...

Scaling Transformer to 1M tokens and beyond with RMT | 威伦特

https://voluntexi.github.io/scalingTo1m/

当我还在用最大一次只能处理1024个上下文的BART模型做实验时，已经有能处理上百万上下文的方法了🤡

概述
提出了 Recurrent Memory Transformer 架构，作者并将其运用在BERT模型上，使BERT模型的有效上下...

文本聚类算法及其实现 | 威伦特

https://voluntexi.github.io/wen-ben-ju-lei-ji-qi-shi-xian/

聚类分析在文本分析、商务应用、网页搜索、推荐系统、生物医学等多个领域都有着十分广泛的应用。

聚类是一种无监督学习方式，目的是把一个数据根据某种规则划分为多个子数据，一个子数据就称为一个聚类。
目前聚类主要分为以下几类：

基于划分的聚类算...

RNN | 威伦特

https://voluntexi.github.io/rnn/

递归神经网络（Recurrent Neural Network, RNN）是一种专门处理序列的神经网络。它们通常用于自然语言处理(NLP）任务，因为RNN在处理文本方面非常有效。

第一句话：我喜欢吃苹果！
第二句话：苹果真是一家很棒的...

GloVe | 威伦特

https://voluntexi.github.io/glove/

GloVe(Global Vectors)是常见的词向量表示方法，GloVe模型认为语料库中单词出现的统计是学习词向量表示的无监督学习算法的重要因素。相较于word2vec，GloVe利用语料库的全局信息。

论文地址：GloVe: Glo...

CNN | 威伦特

https://voluntexi.github.io/cnn/

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法...

关于 | 威伦特

https://voluntexi.github.io/about/

欢迎莅临，很高兴遇见你！🤝

👨‍💻 博主是谁
计算机研究生在读，喜欢钻研一些自己感兴趣的技术,希望能不断进步。
目前研究方向：NLP文本摘要
📬 联系我呀
[email protected]
...

题解：区间的个数 | 威伦特

https://voluntexi.github.io/ti-jie-qu-jian-de-ge-shu/

这道题首先的一个难点就是读懂题意

我首先读了几遍才明白了具体意思意思如下：

根据例题输入：
也就是说在nums数组下标 0<=i<j<nums.size()中寻找和区间
nums[j]+~nums[i]中的值在l...

MoCa | 威伦特

https://voluntexi.github.io/moca/

BRIO在生成式文本摘要领域SOTA位置还没坐稳几个月，便出现了新的SOTA—MoCa

概述
在上一篇文章中说明了BRIO这个在文本摘要抽取领域的训练新范式，BRIO通过利用对比学习（contrastive learning）来构建一个评...

BERT | 威伦特

https://voluntexi.github.io/bert/

BERT(Bidirectional Encoder Representation from Transformers)，BERT模型在结构上简单来讲就是一个多层的transformer的Encoder

概述
Transformer模型自...

题解：N皇后问题 | 威伦特

https://voluntexi.github.io/ti-jie-n-huang-hou-wen-ti/

题目要求，每个皇后不能与其他皇后在同一行，同一列，同一对角线上。因此，我们可以从第一行一直往下搜索，如果符合条件，则将皇后放置在上面。

题目如下：

那么，条件应该如何设置呢？
题目分析
首先我们观察棋谱：

可以将上述棋谱抽象成二维数组...

第三届“传智杯”全国大学生IT技能大赛（初赛B组）个人题解 | 威伦特

https://voluntexi.github.io/di-san-jie-chuan-zhi-bei-quan-guo-da-xue-sheng-it-ji-neng-da-sai-chu-sai-b-zu-ge-ren-ti-jie/

题也不算难，因为第一次打比赛，所以也有失误。

总结
这次算是第一次在洛谷OJ打比赛，之前一直在LeetCode刷题，这两个平台提交代码类型不一样，
导致我没有适应过来洛谷的比赛环境，所以一直在疯狂出错，而比赛提交错误又有罚时，所以......

An Empirical Survey on Long Document Summarization,Part 1：Introduction and Datasets | 威伦特

https://voluntexi.github.io/Survey1/

论文《An Empirical Survey on Long Document Summarization》对长文本摘要领域通过模型、数据集和评价指标三个方面进行了全面的概述，文本是该论文阅读笔记第一部分，描述了长文本的概念，介绍了目前的数...

Generating EDU Extracts for Plan-Guided Summary Re-Ranking | 威伦特

https://voluntexi.github.io/PGA/

这篇文章是在我之前介绍的BRIO模型（BRIO | 威伦特 (voluntexi.github.io)）的基础上改进的，模型的整体框架也是采用两步式摘要，即结合生成候选摘要和评估候选摘要两个阶段来获得最佳摘要。

概述
作者提出了一种生成候...

Word2Vec | 威伦特

https://voluntexi.github.io/word2vec/

Word2Vec
Word2Vec是常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型，它有两种网络结构，分别是CBOW（Continues Bag of Words）连续词袋和Skip-gram。我们可以选择其中一个方法...

LoRA | 威伦特

https://voluntexi.github.io/lora/

在如今大模型时代，如果需要微调一个大模型无疑在时间和金钱方面的消耗是巨大的，而LoRA通过冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层中，大大减少了下游任务的可训练参数的数量。尽管LoRA使得可训练...

SimCSE | 威伦特

https://voluntexi.github.io/SimCSE/

最近做实验需要用到Sentence Embeddings（句向量），特地研究了一下句向量相关模型算法，其中 SimCSE 模型是目前比较火、效果也比较好的一个模型。

介绍
SimCSE（Simple Contrastive Learni...

命名实体识别在HanLP中的实现 | 威伦特

https://voluntexi.github.io/ming-ming-shi-ti-shi-bie-zai-hanlp-zhong-de-shi-xian/

命名实体：文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等

具有以下特点:

数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。
构词灵活。比如**工商银行，既可以称为工商银行，也可以简称工行。
类别...

隐马尔可夫模型 | 威伦特

https://voluntexi.github.io/yin-ma-er-ke-fu-mo-xing/

隐马尔可夫模型（Hidden Markov Model，HMM）是描述两个时序序列联合分布p(x,y)的概率模型。

x序列外界可见（外界指的是观测者)，称为观测序列( observation sequence ) ; y序列外界不可见，称...

B站视频和用户评论爬虫 | 威伦特

https://voluntexi.github.io/b-zhan-shi-pin-he-yong-hu-ping-lun-pa-chong/

本文将详细的讲述关于B站网络爬虫的实现过程。

概述一下，其实B站的爬取过程就是：
对哔哩哔哩视频页面进行oid信息的提取，而oid的信息又与原网址的BV信息有关联，可以通过原网站进行解析出oid信息，然后在抖音爬虫的基础上即可完成哔哩哔哩...

对预训练模型进行微调 | 威伦特

https://voluntexi.github.io/dui-yu-xun-lian-mo-xing-jin-xing-wei-diao/

近年来随着自然语言处理技术的不断发展，预训练模型已经成为了近年来最热门的研究方向之一。预训练模型有更好的性能表现。然而，对于刚接触的人来说，阵对预训练模型的训练可能会显得复杂和难以理解。

因此，本文将以对BART微调用于文本摘要任...

神经网络 | 威伦特

https://voluntexi.github.io/shen-jing-wang-luo/

最近学习神经网络的时候，发现大多介绍神经网络的文章都是先大篇幅的描述概念，然后莫名其妙就丢出很多晦涩难懂的数学公式，就结束了，让人看得一头雾水。
直到最近看了一篇文章，它通过实例和概念相结合的方式介绍神经网络，对初学者十分友好，于是我将其与...

Copy is All You Need | 威伦特

https://voluntexi.github.io/copy-is-all-you-need/

最近在paper with code刷论文的时候，看到了一个很唬人的文章“《Copy is All You Need》”，遂找来研读研读，发现内容还是很有意思，准备写一篇阅读笔记的，偶然发现了这篇文章作者的采访稿，将文章背后的故事都介绍的挺...

Less is More for Long Document Summary Evaluation by LLMs | 威伦特

https://voluntexi.github.io/less-is-more/

这篇文章给了我们一种如何在自己研究的领域去"蹭"大模型热度的思路

摘要：
大语言模型（LLM）在自动摘要评估任务有良好的性能，但它们因为有着高额的计算成本和关键句子丢失等问题，模型经常忽视长文本中的重要信息。为了解决这...

词性标注在HanLP中的实现 | 威伦特

https://voluntexi.github.io/ci-xing-biao-zhu-zai-hanlp-zhong-de-shi-xian/

词性标注
词性标注指的是为句子中每个单词预测一个词性标签的任务。

r：代词 u：助词 n：名词 v：动词 nr：人名 p：介词 a：形容词
词性标注语料库与标注集
同中文分词一样，语言学界在标注规范上存在分歧，导致目前还没有一个被广泛接...

抖音视频和用户评论爬虫 | 威伦特

https://voluntexi.github.io/dou-yin-shi-pin-he-yong-hu-ping-lun-pa-chong/

本文将详细的讲述关于抖音网络爬虫的实现过程。

由于抖音爬虫的反爬虫策略较为严格，本节将抖音网络爬虫用作详细介绍，主要详细介绍抖音网站的特点，对抖音网站进行分析，爬取抖音的用户评论所用到的具体实现思路过程

抖音网站分析
要抓取抖音中的用...

中文分词方法总结 | 威伦特

https://voluntexi.github.io/zhong-wen-fen-ci-fang-fa-zong-jie/

本文介绍的是基于统计的中文分词的方法。

语言模型：
语言模型(Language Model，LM)指的就是对语言珍象的数学抽象。确切来讲，给定一个句子w，语言模型就是计算句子的出现概率p(w)的模型我们无法枚举全人类在过去、现在和将来生成...

题解:分割等和子集 | 威伦特

https://voluntexi.github.io/dong-tai-gui-hua-fen-ge-deng-he-zi-ji/

动态规划 dp

根据数组的长度 num.size() 判断数组是否可以被划分。如果 n%2!=0，则不可能将数组分割成元素和相等的两个子集，因此直接返回 false。
计算整个数组的元素和 sum 以及最大元素maxNum。如果 sum ...

An Empirical Survey on Long Document Summarization,Part 2：Model | 威伦特

https://voluntexi.github.io/Survey2/

本文是论文《An Empirical Survey on Long Document Summarization》的阅读笔记第二部分，介绍了抽取式、生成式和混合式三种长文本摘要方法及其对应有哪些代表模型。

模型
在长文本摘要领域，主要包括...

题解：动态规划:视频拼接 | 威伦特

https://voluntexi.github.io/ti-jie-dong-tai-gui-hua-shi-pin-pin-jie/

今天是10.24程序员日，恰好今天的每日一题序号是1024

题解：
要求覆盖 [0, T] 区间的最少片段数

需要去获得最少的片数，我们就可以想到贪心算法了。
于是我们不妨思考：是否可以将这个片段按照开头的大小排序？
我们不...

依存语法分析 | 威伦特

https://voluntexi.github.io/yi-cun-yu-fa-fen-xi/

语法分析(syntactic parsing )其目标是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)。

短语结构树
语言具备有自顶而下的层级关系，固定数量的语法结构能够生成无数句子。
比如，通过下列两个语法规律，我们就能...

An Empirical Survey on Long Document Summarization,Part 1：Introduction and Datasets | 威伦特

https://voluntexi.github.io/an-empirical-survey-on-long-document-summarizationpart-1introduction-and-datasets/?

论文《An Empirical Survey on Long Document Summarization》对长文本摘要领域通过模型、数据集和评价指标三个方面进行了全面的概述，文本是该论文阅读笔记第一部分，描述了长文本的概念，介绍了目前的数...

题解：动态规划:地下城游戏 | 威伦特

https://voluntexi.github.io/ti-jie-dong-tai-gui-hua-di-xia-cheng-you-xi/

一道常规的动态规划题目。ㅤ ㅤ ㅤ ㅤ ㅤ

基于题目：我们不妨逆向思考，从终点开始行动一直到起点
根据题目例子进行分析

首先我们新创建一个二维数组，大小和原数组相同，将所需要最少的“血”储存在这个数组中
int ro...

感知机算法 | 威伦特

https://voluntexi.github.io/fen-lei-wen-ti-gan-zhi-ji-suan-fa/

感知机是由美国学者Fran Rosenblatt 在1957 年提出来的一种算法,也是作为神经网络（深度学习）的起源的算法。

分类(classification)指的是预测样本所属类别的一类问题。形式化表述，分类问题的目标就是给定输人样本...

Longformer | 威伦特

https://voluntexi.github.io/longformer/

Longformer是一种用来拓展模型在长序列建模的能力算法，它提出了一种时空复杂度同文本序列长度呈线性关系的Self-Attention，用以保证能够使得模型高效处理长文本。

Tranformer由于采用的是“全连接”型的注意力机制，在...

朴素贝叶斯在sklearn中的实现 | 威伦特

https://voluntexi.github.io/po-su-bei-xie-si-zai-sklearn-zhong-de-shi-xian/

朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法，给定一个类别y和一个从x_1到x_n的相关的特征向量，贝叶斯定理公式表示如下:

假设每个特征之间都相互独立：

于是公式可以简化为

由于在给定的输入中是一个常量，我们使用下面的...

Transformer | 威伦特

https://voluntexi.github.io/transformer/?

Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制，不采用 RNN...

An Empirical Survey on Long Document Summarization,Part 2：Model | 威伦特

https://voluntexi.github.io/UZ8occf-2/

本文是论文《An Empirical Survey on Long Document Summarization》的阅读笔记第二部分，介绍了抽取式、生成式和混合式三种长文本摘要方法及其对应有哪些代表模型。

模型
在长文本摘要领域，主要包括...

条件随机场 | 威伦特

https://voluntexi.github.io/tiao-jian-sui-ji-chang/

条件随机场（conditional random field）是一个比感知机更加强大的模型。

背景知识
机器学习模型谱系图

Sklearn对应机器学习算法决策树

使用模板：

生成式模型
模拟数据的生成过程，且随机变量x，y存在因果先...

题解：字符串转整数 | 威伦特

https://voluntexi.github.io/zi-fu-chuan-zhuan-zheng-shu/

最近刚学了正则表达式和STL就碰见了这道题

在没学习正则和STL之前我可能会直接暴力遍历提取把~
但是现在有了更为巧妙的两种方法
挺有意思的~
方法一：正则表达式
这里引用一下正则表达式的说明：正则表达式(regular express...

BRIO | 威伦特

https://voluntexi.github.io/brio/

BRIO是2022年文本摘要领域SOTA，通过结合了对比学习解决了生成式摘要领域seq2seq自回归中的exposure bias问题

概述
在文本摘要抽取领域，通常利用深度模型监督学习的方式进行文本摘要，这类方法基本都是将摘要抽取看着是...

微博榜单爬虫 | 威伦特

https://voluntexi.github.io/wei-bo-re-dian-pa-chong/

本文主要是介绍关于微博榜单的博文以及转发、评论等各种信息爬取。

榜单博文爬取方面，使用的是微博移动端（https://m.weibo.cn）。
因为对于该页面中微博移动版中热门内容、榜单的爬取，不需要使用到cookies。
榜单和微博热门...

信息抽取及其实现 | 威伦特

https://voluntexi.github.io/xin-xi-chou-qu-ji-qi-shi-xian/

本文分别介绍抽取新词、关键词、关键短语和自动摘要的无监督学习方法。

信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用...

voluntexi / voluntexi.github.io Goto Github PK

voluntexi.github.io's Introduction

Hi there 👋

😄 welcome

voluntexi.github.io's People

Contributors

Stargazers

Watchers

voluntexi.github.io's Issues

Recommend Projects

Recommend Topics

Recommend Org