开yun体育网我合计等会咱们可以出去玩-开云「中国内陆」官方网站 更高效、更智能、更环保


本文来自微信公众号:阿茶的AI之路,作家:起名贼辛勤的阿茶,题图来自:AI生成
那天中午,我在上看到一个真理的问题:
把一篇英语著述的统统aeiou替换成t,它还有可能被齐备破译吗?
我翻阅了许多回答,有的列举了tt、ttt、tttt...这样的例子、有的则一册庄重地瞎掰八说念、还有东说念骨干脆把问题丢给大模子搞定....
我合计这内容上是一个信息论的问题。当咱们把统统元音替换成't'后,剩余的信息是否弥漫支捏咱们收复原文?英语自身就有很高的冗余性,比如语法结构、词语搭配等王人能提供宽阔高下文信息。因此,在长文本中,这种收复应该是可行的。关节在于,这种替换究竟厌世了若干灵验信息,剩下的部分是否还足以支捏咱们的剖析和收复。
说到信息论,我与它的干系大要是大学选过的一门课,叫《多媒体时间》。选课之前,我无邪地以为这门课会教我如何用PS,如何剪视频,如何作念PPT。因为从小就在说的“多媒体素养”,嗅觉等于通过ppt来上课。还有“多媒体教室”,等于多了个投影,是以我一直以为这等于“多媒体”。我选它的原因也很浅薄,我的确不会用PS,我念念学学。况兼这门课应该比较浅薄。
上课之后:奈奎斯特定理、信息熵、zigzag、JPEG图像压缩旨趣...
我以为的课设:剪一个视频。
现实上的课设:

就这样一门和我念念象大相径庭的课,我当今却合计是我学过最有用的一门课。因为“信息”无处不在。你看的新闻是信息,你与他东说念主的交流是信息,以致你想象的居品界面也在给用户传递信息。
尤其是在当下,信息分娩的资本急剧镌汰,多样公众号...一个事件可能会被上百个号重迭报说念。此外,AI限制的发扬亦然日月牙异。比较之下,咱们就像大海中的划子,随时可能被信息统一。经受吧,脑子好像又处理不外来;不经受吧,又怕错过了什么。而信息论,恰是匡助咱们找到剖析这些信息的角度,以及制定获取信息计策的用具。
说远了,我去浅薄温习了一下信息论的基础常识,也共享给各人。
从活命中剖析信息
最运行写这篇著述的时刻,我从界说和公式的角度先容信息、信息熵、自信息这些见解...但发现太专科了,不恰当阅读。是以我野心甩掉那些专科的常识,从一个浅薄的游戏剖析信息论。这种直不雅剖析关于非专科东说念主士来说更为蹙迫。
当先,信息是捣毁不笃定性的。
假定我心里念念了一个1到100的数字,请你来猜。在莫得任何教导的情况下,这等于一个齐备不笃定的系统 —— 每个数字的可能性王人是相称的。
如若我告诉你:“今天天气可以,我合计等会咱们可以出去玩,趁便去吃个暖锅”。
这句话你会发现对你算计毫无作用。
而如若我告诉你:“这个数字大于50”。你的算计范畴就减少了一半,然后你猜了个75。
我持续说:“这个数字的范畴在60-70之间”。你的算计范畴进一步平缓,你猜了个63。
我说:“猜对了!”
通过这个浅薄的游戏,咱们就能剖析信息论中的几个中枢见解:
当先,根据信息论中的界说,信息是用来捣毁不笃定性的。你试图猜我心中念念的数字,通过束缚的尝试,来镌汰这个不笃定性。直到你猜到我所念念的。
自信息:单个事件发生时带来的信息量。这里的事件指的是我给你的教导。其中“这个数字是73”这个事件的自信息就很大,因为它的发生概率很小(1/100)。
信息熵:系统的平均不笃定性,当你齐备不知说念我内心所念念的时刻,信息熵达到最大。
信息增益:得回这个信息后,系统不笃定性减少的进度。它现实上是信息熵的变化量:正本的信息熵 减去得覆信息后的信息熵。在这个对话中,“60-70之间”能带来的信息增益一定大于“大于50”,因为它帮你捣毁了更多的打扰。你只需要在10个数内部选一个。而不是50个数。如若我径直告诉你这个数字是63,那么它会将统统这个词游戏的信息熵降为0。因为你仍是不需要猜了。
这等于信息的内容:捣毁不笃定性。当你得回的灵验信息越多,系统的信息熵就越小,你就越接近信源。
再举个活命中的例子。当你在推敲是否购买一件商品时,每条信息王人在帮你捣毁不笃定性:
“这是一件纯棉T恤”(笃定了品类和材质)
“价钱299元”(笃定了价钱区间)
“近邻店同款199元”(这个信息增益很大,可能径直影响你的决议)
很显然,这些见解不仅存在于表面中,更与咱们的日常活命密切关联。每当咱们需要作念决议时,王人在束缚地收罗信息,评估信息的价值,通过获取高信息增益的内容来匡助咱们作出更好的选拔。但愿这两个例子能够让你有一个直不雅的印象。
当今咱们再来望望起首的问题,用刚学到的信息论见解来分析一下。当咱们把统统元音王人替换成't'时,名义上看是厌世了一些信息。但英语文本中其实存在宽阔的“信息冗余”。比如语法结构(主谓宾的位置)、单词搭配(即使“make a decision”中的元音被替换,咱们也大要能猜出来),以及整句话的语境,这些王人在帮咱们捣毁不笃定性。即使失去了元音书息,其他信息的存在依然能匡助咱们很猛进度推测出原文。天然,这说的是大部分场景,信息越多,能收复得手的概率越高。
信息论给咱们的启示
剖析了信息的内容,咱们就能以不同视角看待一些问题:
1. 为什么大模子会“瞎掰八说念”?
我经常强调大模子回应质地是跟用户的发问质地密切关联的。
当它在靠近高度不笃定的问题时,莫得弥漫的信息来镌汰系统的信息熵。就像你在猜数字时,如若得到的教导太少或者有误导,也可能作出虚伪的判断。
比较之下,教导词时间这些王人是援手减少信息噪声的顺次,中枢只好一个,等于让用户如何通晓准确的抒发问题。
2. “冗余”的必要性
在信息传递过程中,噪声是不可幸免的。就像在电话里话语,可能会遭逢信号不好、配景音嘈杂等情况。这时刻,如若信息莫得任何冗余,一朝受到打扰,就很难收复出原始信息了。
这个问题在内容回来类功能中其实尽头显然。好多东说念主让大模子回来著述时,会条件“只给我重心”。贬抑得到的时常是一堆要点的堆砌。一朝大模子的剖析有所歪曲,就会导致信息失真极为严重。
此外,要点的堆砌天然信息密度很高,但读起来尽头辛勤。这就像把著述中的统统谣言王人删掉,只留住中枢不雅点。名义上看起来很高效,现实上反而增多了读者的剖析资本。东说念主类剖析信息时需要高下文。那些看似冗余的内容,比如例子、类比、过渡语句,它们就像语言中的语法结构和单词搭配相同,能够匡助咱们的大脑更好地处理和接收信息。当这些必要的冗余被去掉,即使信息王人在哪里,咱们也需要铺张更多元气心灵去剖析和链接它们。
3. 信息获取计策
说到如何擢升信息获取效果,我的计策很浅薄:不主动刷新闻。
因为有价值的信息会天然传递。蹙迫的事情总融会过多样渠说念传到你耳朵里。即使你不主动去征集,该知说念的总会知说念。反而是那些不蹙迫的信息,如若你不去主动获取,它们就会天然褪色。
当今AI限制每天王人在爆出新模子、新冲破。但仔细不雅察就会发现,的确的冲破性发扬很少,大部分王人是日常的科学运筹帷幄。关于并不需要专注于科研的东说念主来说,莫得必要去刷那么多新闻。
那些的确蹙迫的冲破,势必会在多个渠说念反复出现,况兼会捏续发酵。就像GPT-4的发布,它带来的不仅是一个新闻,而是一系列的时间征询和哄骗探索。这种捏续的信息流才是值得神志的。比如说这几天的Deepseek。
从信息论的角度看,当一个信息通过多个渠说念重迭出当前,不仅擢升了信息的可靠性,更蹙迫的是时常会带来不同的视角息争读。这些各别适值能匡助咱们更全面地剖析这个信息的价值。与其追求信息的全面,不如追求信息的深度。当你对某个限制有弥漫深的剖析时,判断一个新信息的价值时常只需要几秒钟。那些看似错过的信息,很可能对你并不蹙迫;而那些的确蹙迫的信息,一定会以多情势样重迭出当今你眼前。
在信息爆炸的期间,保捏定力比追求全面更蹙迫。让信息天然流动,而不是焦躁地追赶每一个新闻,这可能才是最高效的信息获取计策。
4. 充满包容的疏浚
好多时刻并不是对方笨,而是因为你们对信息的剖析不合等。这让我念念起一个很故真理的游戏:Tick Tock。一个双东说念主互动游戏,但它不需要通过功绩器联机:两个玩家各安定我方的手机上玩,一个东说念主解谜的同期,另一个东说念主要攀附完成某些操作。但关节是两个东说念主并不行看到对方的视角,只可通过其中一方的刻画,来让两边理清处境和需求。
这个游戏完好地证明了信息不合等的内容。当咱们合计“其他东说念主怎样这样笨”的时刻,时常不是对方的确笨,而是咱们站在已知信息的角度,忽略了对方的信息盲区。就像在游戏中,如若莫得跟对方刻画明晰你的画面,他就没法给以你匡助。游戏也就长久无法鼓舞。
咱们经常吐槽用户使用软件的时刻老是“不按套路出牌”。但换个角度念念,这不是用户的问题,而是咱们在想象时,莫得推敲到用户的信息显露水平。咱们合计理所天然的操作经过,对用户来说可能充满了不笃定性。
其实大模子的使用等于一个很好的根据。它就像一个莫得证据书的居品,即使开发者也不行齐备了解它。当作使用者,咱们也在束缚摸索,多样教导词时间王人是试出来的。从更高维度看,咱们统统东说念主王人是愚蠢的用户。
是以,好的疏浚不是浅薄地传递信息,而是要推敲:对方当前的信息景色是什么,如何通过合适的信息冗余来确保剖析,以及如何开辟反映机制,考据信息是否被正确接收。
偶然刻,咱们需要的可能不是更多的解释,而是更多的包容。毕竟,在信息不合等的宇宙里,咱们每个东说念主王人在靠着我方的显露摸索前行。
本文来自微信公众号:阿茶的AI之路,作家:起名贼辛勤的阿茶
本内容为作家寂寥不雅点,不代表虎嗅态度。未经允许不得转载,授权事宜请干系 hezuo@huxiu.com