特征编码
Feature Encoding
Feature Extraction( 特征抽取)
TF-IDF
TF/IDF
- 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此
, “原子能“的权重就应该比应用大。 - 应删除词的权重应该是零。
如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数”
(Inverse document frequency 缩写为IDF),它的公式为log(D/Dw) 其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即 Dw=10亿,那么它的IDF=log(10 亿/10 亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF= log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2) 则只有0.7 。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用IDF ,上述相关性计算个公式就由词频的简单求和变成了加权求和,即TF1 IDF1 + TF2IDF2 +… + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为0.0161 ,其中“原子能”贡献了0.0126 ,而“应用”只贡献了0.0035 。这个比例和我们的直觉比较一致了。 其实IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)
数学原理
一个查询
$$ I(w) = -P(w)logP(w) = -\frac{TF(w)}{N}log\frac{TF(w)}{N} = \frac{TF(w)}{N}log\frac{N}{TF(w)} $$
其中
- 每个文献大小基本相同,均为
M 个词,即$$M=\frac{N}{D}=\frac{\sum_w{TF(w)}}{D}$$ - 每个关键词一旦出现,则次数均等,即某个关键词在所有包含它的文档中出现的次数相等。则每个关键词出现
$$c(w) = \frac{TF(w)}{D(w)}$$ 次。
那么可以得到
$$ \frac{TF(w)}{N} log \frac{N}{TF(w)} = \frac{TF(w)}{N}log\frac{MD}{c(w)D(w)}= \frac{TF(w)}{N}log( \frac{D}{D(w)} \frac{M}{c(w)}) $$
根据该公式,可以推导出
$$ TF-IDF(w)=I(w)-TF(w)log(\frac{M}{c(w)}) $$
可以看出一个词的信息量
StandardScaler
Feature Selection( 特征选择)
PCA
Transform
Normalizer
Association Rule Learning Algorithms

Association rule learning are methods that extract rules that best explain observed relationships between variables in data.
These rules can discover important and commercially useful associations in large multidimensional datasets that can be exploited by an organisation.
The most popular association rule learning algorithms are:
- Apriori algorithm
- Eclat algorithm