算法& 模型

算法& 模型

各种算法合集,各种模型合集

潜在语义分析(latent semantic analysis

主题生成模型(Latent Dirichlet Allocation)

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

因子分析(Factor Analysis)

因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。 基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。

核函主成分(kernal pca)

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间后再使用原本线性的主成分分析。 https://zh.wikipedia.org/wiki/%E6%A0%B8%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

主成分方法(PCA)

在多元统计分析中,主成分分析(英語:Principal components analysis,PCA)是一種统计分析、簡化數據集的方法。 它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。 https://zh.wikipedia.org/zh-sg/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90#:~:text=%E5%9C%A8%E5%A4%9A%E5%85%83%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E4%B8%AD,%E4%B8%BB%E6%88%90%E5%88%86%EF%BC%88Principal%20Components%EF%BC%89%E3%80%82

层次聚类(Hierarchical clustering)——支持多种距离

层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。 在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。 创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文章介绍合并方法。

Kmeans算法

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。 聚类中心以及分配给它们的对象就代表一个聚类。

Knn算法

K最近邻(k-Nearest Neighbors,KNN) 算法是一种分类算法,也是最简单易懂的机器学习算法,没有之一。 … 该算法的思想是:一个样本与数据集中的k个样本最相似,如果这k个样本中的大多数属于某一个类别,则该样本也属于这个类别。

典型相关分析(CCA)

在统计学中,典型相关分析(Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, …, Xn) 和 Y = (Y1, …, Ym) 并且它们是相关的,那么典型相关分析会找出 Xi 和 Yj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析,这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入 https://zh.wikipedia.org/wiki/%E5%85%B8%E5%9E%8B%E7%9B%B8%E5%85%B3

逻辑回归(Logistic regression)

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

稳健回归(Robustness regression)

稳健回归(robust regression)是统计学稳健估计中的一种方法,其主要思路是将对异常值十分敏感的经典最小二乘回归中的目标函数进行修改。 经典最小二乘回归以使误差平方和达到最小为其目标函数。 因为方差为一不稳健统计量,故最小二乘回归是一种不稳健的方法。 不同的目标函数定义了不同的稳健回归方法。

多项式回归(Polynomial regression——多项式基函数回归)

在统计学中, 多项式回归是回归分析的一种形式,其中自变量 x 和因变量 y 之间的关系被建模为关于x 的n 次多项式。 多项式回归拟合x的值与y 的相应条件均值之间的非线性关系,表示为E(y|x),并且已被用于描述非线性现象,例如组织的生长速率、湖中碳同位素的分布以及沉积物和流行病的发展。 https://zh.wikipedia.org/zh-sg/%E5%A4%9A%E9%A1%B9%E5%BC%8F%E5%9B%9E%E5%BD%92#:~:text=%E5%9C%A8%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B8%AD%EF%BC%8C%20%E5%A4%9A%E9%A1%B9%E5%BC%8F,%E5%92%8C%E6%B5%81%E8%A1%8C%E7%97%85%E7%9A%84%E5%8F%91%E5%B1%95%E3%80%82

高斯过程回归(Gaussian Process Regression)

高斯过程回归是一种贝叶斯推断。 什么是贝叶斯推断这里就不展开细讲了,简单来说就是利用贝叶斯定理结合新的证据及以前的先验概率,来得到后验概率

偏最小二乘回归(PLS)

偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差的超平面,而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型。当Y是分类数据时有“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”,是PLS的一个变形。https://zh.wikipedia.org/wiki/%E5%81%8F%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E5%9B%9E%E5%BD%92

套索回归(Lasso)

Lasso回归是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性,.

弹性网络回归(Elastic Net)

弹性网络是一种使用 L1,L2范数作为先验正则项训练的线性回归模型.这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso一样,但是它仍然保持一些像Ridge的正则性质。我们可利用 l1_ratio 参数控制L1和L2的凸组合。弹性网络是一不断叠代的方法。

贝叶斯回归(Bayesian Regression)

贝叶斯线性回归(Bayesian linear regression)是使用统计学中贝叶斯推断(Bayesian inference)方法求解的线性回归(linear regression)模型

AdaBoost

Adaboost算法是1995年由 Freund和 Schapire提出的,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

GBDT(Gradient Tree Boosting)

GBDT模型是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。

最小二乘回归(OLS)

最小二乘法(英语:least squares method),又称最小平方法,是一种数学优化建模方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便的求得未知的数据,并使得求得的数据与实际数据之间误差的平方和为最小。 https://zh.wikipedia.org/wiki/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95

岭回归(Ridge Regression)

岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。

核岭回归(Kernel ridge regression)

核岭回归(KRR)简介- 基于核方法的岭回归(KRR)用于多变量非线性回归,岭回归lambda可以抑制多重共线性病态方程解的稳定性,L2正则化带来可控的泛化能力。 支持向量机回归(SVR) 支持向量机回归(SVR)是支持向量机在回归问题上的应用模型。 支持向量机回归模型基于不同的损失函数产生了很多变种。 本文仅介绍基于ϵϵ\epsilon不敏感损失函数的SVR. 核心思想找到一个分离超平面(超曲面),使得期望风险最小。

决策树算法(decision tree)

决策树算法是一种逼近离散函数值的方法。 它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。 本质上决策树是通过一系列规则对数据进行分类的过程。

Bagging

Bagging算法 (英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。最初由Leo Breiman于1994年提出。Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。

随机森林(Random Forest)

随机森林或随机决策森林是用于分类,回归和其他任务的集成学习方法,其通过在训练时构建多个决策树并输出作为类的模式(分类)或平均预测(回归)的类来操作。 个别树木。 随机决策森林纠正决策树过度拟合其训练集的习惯。

朴素贝叶斯算法(Naive Bayes)

朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。不过和前面篇文章两个基于线性假设的模型(线性分类器和支持向量机分类器)不同,朴素贝叶斯分类器的构造基础是贝叶斯理论。 抽象一些说,朴素贝叶斯分类器会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:各个维度上的特征被分类的条件概率之间是相互独立的。

二次判别分析(QDA)

支持向量机(SVM)

支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。 给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。

线性判别分析(LDA)

线性判别分析(Linear Discriminant Analysis, 以下简称LDA)做一个总结。 LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下它的算法原理。

big bird

Big Bird,采用稀疏注意力机制,将二次依赖降至线性,解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制,同时兼顾更长的上下文。 论文名称:Big Bird: Transformers for Longer Sequences https://arxiv.org/abs/2007.14062

Switch Transformer

首个万亿级模型:谷歌推出语言模型 Switch Transformers,1.6 万亿参数 Google 在 arXiv 上发表论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新语言模型—Switch Transformer。 论文中指出,Switch Transformer 使用了稀疏激活(Sparsely Activated)技术,该技术只使用了神经网络权重的子集,或者是转换模型内输入数据的参数。在相同计算资源下,其训练速度上比 Google 之前研发的最大模型 T5-XXL 还要快 4 倍。

MT5

UniLM

alphafold2

XLM

XLM-ProphetNet

MASS

PREFOMER

XLM-RoBERTa

XLNet

XLSR-Wav2Vec2

Reformer

RetriBERT

RoBERTa

Speech2Text

SqueezeBERT

T5

TAPAS

Transformer XL

Wav2Vec2

MPNet

OpenAI GPT

OpenAI GPT2

Pegasus

PhoBERT

ProphetNet

RAG

M2M100

MarianMT

MBart and MBart-50

MobileBERT

LXMERT

Longformer

LED

LayoutLM

I-BERT

herBERT

Funnel Transformer

FSMT

FlauBERT

Encoder Decoder Models

ELECTRA

DPR

DistilBERT

DialoGPT

DeBERTa

CTRL

ConvBERT

CamemBERT

BORT

BertGeneration

Blenderbot

Bertweet

BARThez

BART

ALBERT

NNLM(Neural Network Language Model)

BERT

The Transformer

Bi-LSTM with Attention

Seq2Seq

Seq2Seq with Attention

Bi-LSTM

TextLSTM

TextCNN

TextRNN

FastText(Application Level)

Word2Vec(Skip-gram)

编辑 markdown编辑器

By Terry Chan