Binomial distribution

n次伯努利实验,样本相互独立,单次成功概率为p,服从参数为n和p的二项分布:

$$P\{ x= m\} =C_{n}^{m}p^{m}\left( 1-p\right) ^{n-m} \ \ (其中,0<p<1, m=0,1,...,n)$$

累计概率分布函数:

$$F\left( m\right) =P\{ X \leq m\} =\sum ^{m}_{i=0}C_{n}^{i}p^{i}\left( 1-p\right) ^{n-i}$$

二项分布的两种逼近:泊松分布 和 标准正态分布(拉普拉斯中心极限定理)

  • 当n很大,p较小(稀有事件,一般小于0.1),即np=$\lambda$较小,近似逼近泊松分布

  • 当n很大,p较大,即np也很大,近似逼近标准正态分布 $Z=\dfrac{X-np}{\sqrt{np\left( 1-p\right) }}$ ,$X=\sum ^{n}_{i=0}x_{i}$ 对于二项分布,$x_{i}$为所有事件和,即成功次数。

abnormality = scipy.stats.binom(total / 100, p).cdf((total - loss) / 100)
abnormality = ((total - loss) - total * p) /
                    more ...
                

Faiss

0.faiss Mac m1 install源码安装?

master分支若不支持arm64,则下载使用下面 pr:matsui528:workaround-for-aarch64-gcc源码git clone -b branch_name url分支下载

https://github.com/facebookresearch/faiss/pull/1882

https://github.com/facebookresearch/faiss/wiki/Installing-Faiss#compiling-faiss-on-arm
$ brew install llvm
$ brew install swig
$ cd faiss
$ cmake -B build -DFAISS_ENABLE_GPU=OFF -DFAISS_ENABLE_C_API=ON -DBUILD_SHARED_LIBS=ON -DBUILD_TESTING=OFF -DFAISS_ENABLE_PYTHON=ON .
$ cmake  -B build -DCMAKE_CXX_COMPILER=clang++ -DFAISS_ENABLE_GPU=OFF  -DPython_EXECUTABLE=$(which python3) -DFAISS_OPT_LEVEL=generic -DCMAKE_BUILD_TYPE=Release -DBUILD_TESTING=ON
$ make -C build -j faiss
$ make -C build -j swigfaiss
$ cd build/faiss/python/ && python3 setup.py build
$ export PYTHONPATH=$PWD/build/faiss/python/build/lib/
                    more ...
                






Bias vs Variance

方差与偏差

泛化误差分为:偏差和方差

偏差:指算法的期望预测值与真实值之间的偏差程度,反应的是模型本身拟合能力 …

more ...

GBDT

问题引入

给定数据集\((x_1, y_1), (x_2, y_2),...,(x_n, y_n)\), 拟合一个模型\(F(x)\)

\(F(x_1) = 1.4\)\(y_1=1.3\)

\(F(x_2) = 0.9\)\(y_2=0.8\)

...

在 …

more ...