Scipy stats
Binomial distribution
n次伯努利实验,样本相互独立,单次成功概率为p,服从参数为n和p的二项分布:
$$P\{ x= m\} =C_{n}^{m}p^{m}\left( 1-p\right) ^{n-m} \ \ (其中,0<p<1, m=0,1,...,n)$$累计概率分布函数:
$$F\left( m\right) =P\{ X \leq m\} =\sum ^{m}_{i=0}C_{n}^{i}p^{i}\left( 1-p\right) ^{n-i}$$二项分布的两种逼近:泊松分布 和 标准正态分布(拉普拉斯中心极限定理)
当n很大,p较小(稀有事件,一般小于0.1),即np=$\lambda$较小,近似逼近泊松分布
当n很大,p较大,即np也很大,近似逼近标准正态分布 $Z=\dfrac{X-np}{\sqrt{np\left( 1-p\right) }}$ ,$X=\sum ^{n}_{i=0}x_{i}$ 对于二项分布,$x_{i}$为所有事件和,即成功次数。
abnormality = scipy.stats.binom(total / 100, p).cdf((total - loss) / 100)
abnormality = ((total - loss) - total * p) /
more ...
Faiss
0.faiss Mac m1 install源码安装?
master分支若不支持arm64,则下载使用下面 pr:matsui528:workaround-for-aarch64-gcc
源码git clone -b branch_name url
分支下载
https://github.com/facebookresearch/faiss/pull/1882
https://github.com/facebookresearch/faiss/wiki/Installing-Faiss#compiling-faiss-on-arm
$ brew install llvm
$ brew install swig
$ cd faiss
$ cmake -B build -DFAISS_ENABLE_GPU=OFF -DFAISS_ENABLE_C_API=ON -DBUILD_SHARED_LIBS=ON -DBUILD_TESTING=OFF -DFAISS_ENABLE_PYTHON=ON .
$ cmake -B build -DCMAKE_CXX_COMPILER=clang++ -DFAISS_ENABLE_GPU=OFF -DPython_EXECUTABLE=$(which python3) -DFAISS_OPT_LEVEL=generic -DCMAKE_BUILD_TYPE=Release -DBUILD_TESTING=ON
$ make -C build -j faiss
$ make -C build -j swigfaiss
$ cd build/faiss/python/ && python3 setup.py build
$ export PYTHONPATH=$PWD/build/faiss/python/build/lib/
more ...
Cross Validation-CV
Logistic Regression
1. Linear Regression
1.1 线性模型
1.2 拟合线性模型的损失函数
平方损失:
什么 …
more ...Automated Feature Engineering: Featuretools
思考:
-
当特征深度过深大于2时的特征可解释性?
-
生成的特征过多带来新的问题:维度诅咒,那么如何选取特征?
feature reduction and selection …
more ...PCA
L1 and L2 Regularization
Bias vs Variance
GBDT
问题引入
给定数据集\((x_1, y_1), (x_2, y_2),...,(x_n, y_n)\), 拟合一个模型\(F(x)\)。
\(F(x_1) = 1.4\)而\(y_1=1.3\)
\(F(x_2) = 0.9\)而\(y_2=0.8\)
...
在 …
more ...