特征工程之文本 tf idf

if idf

tfidf.png

tfidf 语法.png

tfidf-view.png

应用场景

  1. 文本分类
  2. 文本相似度匹配

代码

# tfidf
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cut():
    """
    jieba分词  :return:词数组
    """
    con1 = jieba.cut("晚上,和老妈一起看电视。 老妈盯着我看了半会,突然问 : “咱家是愚公的后代吧?”我一脸懵逼。老妈骄傲的挺挺胸 : “咱家祖传的两座大山,传你这终于给铲平了啊!” 我.........")
    con2 = jieba.cut(""你吃过鼻屎吗?""那么咸的东西!我怎么可能会去吃!"")
    con3 = jieba.cut("孙刘抗曹魏时,诸葛和周瑜谈画,周瑜说“你有何武器?诸葛大叫“有核武器?有核武器我还找你”")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3

if __name__ == "__main__":
    c1, c2, c3 = cut()

    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())

    print(data.toarray())

运行结果

['一脸', '一起', '东西', '两座', '刘抗曹', '半会', '可能', '后代', '周瑜', '咱家', '大叫', '大山', '怎么', '愚公', '挺胸', '晚上', '有何', '核武器', '武器', '看电视', '祖传', '突然', '终于', '老妈', '诸葛', '谈画', '那么', '铲平', '骄傲', '魏时', '鼻屎']
[[0.18898224 0.18898224 0.         0.18898224 0.         0.18898224
  0.         0.18898224 0.         0.37796447 0.         0.18898224
  0.         0.18898224 0.18898224 0.18898224 0.         0.
  0.         0.18898224 0.18898224 0.18898224 0.18898224 0.56694671
  0.         0.         0.         0.18898224 0.18898224 0.
  0.        ]
 [0.         0.         0.4472136  0.         0.         0.
  0.4472136  0.         0.         0.         0.         0.
  0.4472136  0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.4472136  0.         0.         0.
  0.4472136 ]
 [0.         0.         0.         0.         0.23570226 0.
  0.         0.         0.47140452 0.         0.23570226 0.
  0.         0.         0.         0.         0.23570226 0.47140452
  0.23570226 0.         0.         0.         0.         0.
  0.47140452 0.23570226 0.         0.         0.         0.23570226
  0.        ]]

视频

<video style="width:100%;height:100%;" src="http://pg7op1zfx.bkt.clouddn.com/04_%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B%E4%B9%8B%E6%96%87%E6%9C%ACtfidf.mp4"; controls="controls">