Tommy Huang
Feb 9, 2021

--

D是「所有文件的總數」(但也可能為「所有詞的總數」),以範例來說,假設文件有100個,那D就是100。

dt: 第t個詞在多少文件有出現過,假設D=100(文件總數為100),那dt=100,代表第t個詞在這100個文件都有出現過。

假設我有三個文件

文件1: I love this thing.

文件2: I am man.

文件3: I have this example.

D=3

文件1 文件2 文件3

I 1 1 1 dt=3

love 1 0 0 dt=1

this 1 0 1 dt=2

thing 1 0 0 dt=1

am 0 1 0 dt=1

man 0 1 0 dt=1

have 0 0 1 dt=1

example 0 0 1 dt=1

idf1 = log(3/3)=0

idf2 = log(3/1)=0.47

idf3 = log(3/2)=0.176

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com

Responses (1)