Feb 9, 2021
D是「所有文件的總數」(但也可能為「所有詞的總數」),以範例來說,假設文件有100個,那D就是100。
dt: 第t個詞在多少文件有出現過,假設D=100(文件總數為100),那dt=100,代表第t個詞在這100個文件都有出現過。
假設我有三個文件
文件1: I love this thing.
文件2: I am man.
文件3: I have this example.
D=3
文件1 文件2 文件3
I 1 1 1 dt=3
love 1 0 0 dt=1
this 1 0 1 dt=2
thing 1 0 0 dt=1
am 0 1 0 dt=1
man 0 1 0 dt=1
have 0 0 1 dt=1
example 0 0 1 dt=1
idf1 = log(3/3)=0
idf2 = log(3/1)=0.47
idf3 = log(3/2)=0.176