Frivolity: Semantic Information#

语义信息量#

顺着Research里的红楼梦统计学讲,自然而然想到一个问题:怎么考察语言风格?是用词、用句、章法结构、信息量吗?这里想讨论一下我们怎么评估一个句子的信息量。

一个微观的角度从句子出发:

\[ I = I(主) I(谓) I(宾) + I(定) I(宾) + I(状) I(谓) + I(谓) I(补) + \cdots \]

这个定义方式保证同样的几个实词,分成两句说和一句说有相同的信息量。

虚词应该直接定义为信息量为0的词,如 \(I(但)=0\) \(I(也)=0\)。这个角度来说,'是'不能算虚词。

目前认为 \(I(是) = I(一定) = 1\)\(I(有) = I(存在) = 1\)\(I(不是) = I(一定不) = 0\)\(I(可能) < 0\)(到底多少还应细化可能的含义才可以确定)

以上关键词的信息量推导自众所周知的香农的概念,他的信息量无关语义,这里可以构造出对接的地方。我得到的是 \(I(p) = p\log p + p\)(具体过程问我)。

容我解释一下,这个负信息量是有一定道理的。

\[\begin{split} I(它不是红色) = 0 & \left\{ \begin{aligned} I(它可能是红色) < 0 \\ I(而它不是红色) > 0 \end{aligned} \right. \end{split}\]

一个很重要的概念是'无知信息量'。我们简单一想就会发现,语义的信息量是依赖于语境的,或者说相对于预设的。\(I(2|1) = I(2\&1) - I(1)\) 而有些时候这个1句是隐藏的——所以我们需要一个不加预设的'无知信息量'。在你啥啥不懂的情况下突然告诉你它不是红色有什么用呢?还有无数种颜色可选。但为什么大家会认为有信息量?因为本来在大家眼里,它可能是红色的、黄色的、绿色的(一个分布),但现在排除掉一个了。在'可能是红色'这个(负的)语境下,这句话是有正信息量的。

那么还有海量的实词,它们如何标定?一个非常的朴素的想法是,越稀有越有价值——考察搭配的概率。

(下面是两个相关参考。空间精力有限,先讲这么多……)

Reference

[1] 辛港涛 & 樊平毅..语义信息论的回顾与展望. 中兴通讯技术. DOI:10.12142/ZTETJ.202302003

[2] http://survivor99.com/lcg/books/git/qt.htm