发烧论坛

注册

 

发新话题 回复该主题

现时数字音源最大的局限性(相较LP之类而言) [复制链接]

查看: 15562|回复: 86
1#

Timme 在 2006-4-2 14:20:32 发表的内容
局限性:没有完整的方法来证明,人的听觉是线性叠加的。

比如,单独听正弦波,人耳可以听到1k,2k,3k...直到20k就不能再往上了。但也许有这类可能:对12k和24k混合的波形(而非单独一个正弦波),人耳却能听到其中的24k?(只要能分辨出和单独的12k声音不同即可)

(由于这类“非线性叠加”的可能性有无穷种,看似没有完整的方法来证明人耳“不是非线性”。而你要说人耳是理想线性的,你说我都不信呐!



我觉得关于听觉,应该区分两个阶段:首先,器官是否能接收到;其次:人脑如何处理接收到的信息。

楼主举的是觉得例子造成的区别,是在于第二阶段“人脑如何处理接收到的信息”——也就是说眼睛的感光细胞可以正确接收图片每一处的明暗信息,但人脑却未必会把眼睛传来的两处明暗相同的点的信息,真的处理成明暗相同的感觉。

但是楼主举的12k和24k混合的例子,我想混合之后,人耳还是不能感觉到24k的那一部分的。因为这是“第一阶段”的问题:人耳本身不会对24k的信号有任何反应,它根本感受不到24k的信号。人脑不会自身平白无故地产生一个24k的听感。

我们也可以用实验亲自验证:我的电脑声卡可支持最高96k的取样率,所以我可以用Cool Edit产生高达48k的信号;同时我用Sennheiser HD580耳机来试听,该耳机频响高到30k。

我用Cool Edit产生一个12k的纯粹的正弦波,另外也产生一个12k + 24k的混合正弦波。结果用我自己的耳朵去听,不管音量多大多小,两者听上去完全一模一样,没任何区别。

以上是我个人的一点意见,仅供参考。
分享 转发
TOP
2#

假如要从视觉上来类比听觉的话,我们可以这样想:

科学事实证明光波其实是电磁波的一种而已,具体来讲电磁波里,频率处于某一段之内的那些,可以引起人眼的感觉产生视觉。但频率太高的电磁波,人眼没反应,所以“看不见”。

另外我们也知道:我们常用的手机就是通过高频的电磁波来进行通讯的。

所以按照楼主的思路:我们在电影院里看电影,假如旁边放一台手机,那画面是否就会立刻变得流畅、自然、形体感增强呢?——或者说,你的身旁突然放了一部手机,那你就会立刻发现感觉到的电影画面有变化?
TOP
3#

Timme 在 2006-4-2 15:06:47 发表的内容
你是广受数字处理理论灌输出来的思路,在数学上并不严谨。“人耳能接收”是否是除频率外是无条件的呢?还有,顺着你DSP的思路来理论:完全接收不到的信号是不存在的,看衰减多少而已。假入人耳在30k衰减了90db,那人脑在30k再提升90db不就行了?如此,你的“第一阶段”和“第二阶段”不就统一了?

人耳底噪很不错的,耳膜移动一个氢原子大小的距离都能被感受到(这个不是我自己编的),所以90db也不是问题。


在声波引起人的听觉神经产生反应的这一个环节之前,首先是不同频率的声波在人耳基底膜上的不同位置引起振动,高频率的声波在靠近基底膜底部的地方产生最高峰,低频率的声波在靠近基底膜顶部的地方产生最高峰——而这些振动则由基底膜上的毛细胞来感受,有的毛细胞专门感受低频的振动,有的专门感受高频振动(Timme兄你瞧,人耳的生理构造其实和各种频率的振动的叠加是相当之类似的),毛细胞感受高频振动是有个上限的,频率太高的话真是什么都引不起反应的,所以在这个意义上来讲,人耳可感受的声波真是除频率外无条件的。

假如您说其实毛细胞可以感受很高频率的声波,只是由于有了衰减所以才显得“听不到”——那您要知道,人耳的毛细胞能承受的声波的最大强度是有一个上限的,超过了这个强度,就不是毛细胞能不能感受到的问题了,而是毛细胞是否会被摧毁的问题(震聋了)!同时,人脑生来就是这个模样的,你不可能改造人脑说让它强行增强某个频率信号。所以假如想让一个人感受到30k的信号,唯一的做法便是增大声波的能量——不过我估计声波的音量还没增大到能引起人耳毛细胞的感觉,所有的毛细胞就被这么大能量的声波所摧毁了,聋了。

所以这样看来,人耳可感受的声波的频率上限,仍然是除频率外无条件的。

并且我们也能够理解:为何我们的听力的范围是20 - 20kHz:因为我自己也试验过:我自己产生21k、22k的信号,正常音量我什么都听不见,只有把音量旋钮弄到最大(冒着耳机被烧的危险),才能感受到音感,但是这种耳朵的感受是极端痛苦的,我听了一两秒就要把耳机脱下,并且耳朵要过好一阵子才舒服过来——这个试验我不肯再做第二次了,实在是太痛苦了。所以可见,让我的耳朵明确听见22k的信号,是可以的,但是代价是音量几乎要摧毁我的耳朵。所以在不损毁人耳的前提下,可闻频率的上限是绝对的。

还有请问Timme兄:您所说的“人耳在30k衰减了90db”,那具体是在人的哪一个器官(请不要笼统地说“人耳”哦),哪一个环节发生了您所说的这种“衰减”呢?

还有,什么是“人耳的底噪”呢?这个“底噪”由什么产生呢?它的频率分布是怎样的呢?它(它们)是在人的整个听觉系统中的哪一个环节被加入的呢?这种“底噪”影响到产生听觉的哪些环节呢?

再有“耳膜移动一个氢原子大小的距离都能被感受到”吗?——有时侯是,有时候却不是:比如说假如现在让你耳膜移动一个H原子大小(其实应该说是原子直径吧?)的距离,不过整个过程的时间长度是10年,那请问耳朵能否感觉得到?——因此产生感受的两个因素是:耳膜震动的“距离”;产生这个震动的时间长度——太长不行(对应极低频);太短了也不行(对应极高频)。

同时我觉得Timme兄没必要以批判的眼光来对待数字处理——实际上不存在没严谨数学分析之下的DSP的。我知道Timme兄可能有些敌视DSP,或许也以为是专家们在某些方面骗我们——但是我从没发现是这样——倒是很多情况下由于我们对某个领域不够深入的掌握,对于某些问题产生一些“想当然”、“类似可得”的思路。假如我们真的用心去钻研一下就会看到真正的原因远比我们想象的复杂

我推荐一篇很新的(2004年),并且很有里程碑式的paper,它是处于这个领域里公认的“导航”式的地位的:

http://www-stat.stanford.edu/~donoho/Reports/2004/CompressedSensing091604.pdf

尽管Compressive Sensing并不是100%等同于以人体感觉为基础的,但是我觉得Donoho的这个工作对于数字领域里面的传感压缩、最优还原的讨论和结论,相当漂亮,很让人吃惊——请Timme兄不要说这是实现不了的讨论——实际上Bell Lab的Cormode和新泽西州立大学的Muthukrishnan两人在紧接着的2005年,就写出了可实现上述结论的实用算法,可以用芯片实现的!(这是DIMACS的一个项目,报告请看DIMACS TR 2005-40)

请Timme兄不妨看看上面推荐的两篇paper,里面的内容绝对可以改变您的头贴里面的想法。不是说这里故意要把问题弄得很复杂——而是这个问题本来就不简单的,想要说到点子上不是几段话就能说明白的,因此我们不妨看看这个领域里面专家们的精彩结论。

不管怎样,大家用自己的电脑,按我前一个帖子说的方法,产生信号,自己听一听不就心里有数了
最后编辑felixcat
TOP
4#

还有,使用与不使用UV镜,在某些时候有成像差异,不是因为人眼是否能看到紫外线的原因。而是:众所周知,滤镜其实是一个天然的滤波器,但是世界上不存在完美的滤波器——也就是说不存在UV镜能够严格地滤掉紫外线的同时,一点都不影响、改变可见光频段的信息,这个网页提供了UV镜的原理和各种不同牌子UV镜的性能测试:

http://www.photo.net/equipment/filters/

这就好比我们知道音频中的滤波器都有“频响曲线”这个概念一样。

还有,假如不使用UV镜,在某些拍摄场景的时候,由于胶片的物理特性,会造成胶片蓝色感光物质过度曝光的不正常的现象,使得照片整体背景带有一层异常的蓝紫色。

所以有时候拍照片,使用与不使用UV镜的结果会有人眼可辨的差别,但这绝对不能说明人眼能够感受紫外线。

最后,我觉得讨论似乎有点跑题了。我觉得应该回到这个话题上来:
一个12k和24k正弦波的混合波形,人耳是否能听出和纯粹的12k正弦波不同?

我的反应是:根据我自己亲身经历的盲听试验,我没听出有什么不同。
最后编辑felixcat
TOP
5#

Timme 在 2006-4-3 2:41:05 发表的内容
不好意思,你好像理解错了我的意思

请举起一块UV镜,用肉眼透过镜观看暗处。对比下不用镜时的效果

12k混合24k只是我的一个举例,事实上会有无穷个这样的例子,你得找方法全部否定(或者肯定一部分)才行。如果这个准备工作都不做,那现今数字音源的音质就无法在理论上保证。


我记得前面说过的:因为UV镜不可能是完美地滤掉紫外频段的光波,同时不影响、不改变可见光频段的信息,甚至UV镜还有透光度这个指标,所以平常情况下用UV镜看暗处和不用UV镜看,当然视觉上会有不同——这个和紫外光没什么关系。

或者这样来看吧:假如您看UV镜有不同的视觉感受,那您如何证明肯定是紫外光造成这样的效果呢?
TOP
6#

Timme 在 2006-4-3 2:41:05 发表的内容
12k混合24k只是我的一个举例,事实上会有无穷个这样的例子,你得找方法全部否定(或者肯定一部分)才行。如果这个准备工作都不做,那现今数字音源的音质就无法在理论上保证。


因为听觉产生的最前端的器官——毛细胞,已经证实是不同的毛细胞负责收集不同频率的声波信息,这是最好的证据之一了。

还有,我们不妨重新来看看80年代初Linn老板参加的那个LP和LP+编码+解码输出对比的听感测试,测试结果之前我已有专门的帖子介绍了,Linn老板分辨不出纯粹的LP模拟输出,还有LP输出给A/D,然后立刻D/A,然后再把这个信号给功放输出——这两种方式的不同——难道这不是一个对于数码理论很好的试验支持么?

还有,我们似乎应该遵循“谁主张谁举证”这个原则。对于音频这个领域,理论、试验具有支持;现在Timme兄对于这个问题有不同的主张,似乎要举举证哦(请不要举视频的)。
最后编辑felixcat
TOP
7#

还有一点,Timme兄在前一页第一个帖子里说CD是在22kHz齐刷刷地砍掉——虽然理论上应该是这样的,但是现实中我们却造不出“齐刷刷砍掉”的滤波器。

现实中A/D里的滤波器的频响曲线,是要在22k之前的某一个频率就开始光滑地衰减,并且在22k(或之前)的时候恰好降到0(或者0附近)。也就是说现实中的CD同样也是“不会突变,也不会有被齐刷刷砍掉的高频”。

这里有很详细的滤波器的介绍:
http://www.maxim-ic.com.cn/appnotes.cfm/appnote_number/928

这是理想中“齐刷刷”的滤波情形:
[upload=gif]Upload/2006433355518063.gif[/upload]

但问题是现实中电路不能完美地造出上述效果,任何A/D的低通滤波的频响都是类似于这种形状的,有一个光滑下降的Transition Region的:
[upload=gif]Upload/2006433371423114.gif[/upload]

大家看,根本就不是“齐刷刷”的。
最后编辑felixcat
TOP
8#

Timme 在 2006-4-2 21:39:55 发表的内容
那个standford的文章不是讨论怎样节省硬件资源的么,那么具像的东西和我楼顶的抽象假设有何联系?


请注意一下:在什么情况下(信号满足什么样条件),可以做Compressive Sensing?这些用数学语言描述的条件,和现实中人类的感觉模式是否有对应呢?——假如真按Timme兄所说的那样,不管最高频有多高,人可以感知两个频率叠加中高频率的那个,那就惨了——连感知的范围有多大都不能确定,还Compress Sensing什么呢?

另外,Donoho的这篇paper不是讨论硬件资源的,假如你通读这篇paper就能发现,Donoho甚至是不管是否可以用现实中的电路、硬件来实现这样的结果的。他的主要结论是说,不管你用什么样的编码、解码方式,最好的效果是如何如何。

Timme 在 2006-4-2 21:39:55 发表的内容
这么“导航”的文章,你总得告诉我它发表在哪吧?


Timme兄常看paper的话,是否会发现有“preprint”或者“unpublished manuscript”这些词呢?Donoho这篇paper是preprint的,至于将在什么地方出现您可以发email去问问作者本人,他的电子邮件是donoho@stat.stanford.edu。或者您也可以搜索一下,看看它被其他paper引用的频繁程度。

“导航”不是我的评价,DeVore亲自跟我说的;并且当时Baraniuk也在场,他也给了很高的评价。

从Timme兄的言语中似乎有对Donoho的这篇paper的地位的质疑。本来在信号处理领域内是无人不知Donoho的,但这里提供一个另外的信息可以增进我们对他的了解:David Donoho本人是20世纪德国伟大的数学家希尔伯特的嫡传弟子(HIlbert -> Schmidt -> Hopf -> Eckmann -> Huber -> Donoho ),并且也可以算是克莱因的嫡传弟子(Klein ->  Bieberbach -> Hopf -> Eckmann -> Huber -> Donoho)——相信理科领域内的朋友都知道“希尔伯特空间”、“施密特正交化”、“霍普夫引理”这些响当当的概念吧

Timme 在 2006-4-2 21:39:55 发表的内容
想提一下的是,有非线性关系那也不是占主导地位的,有99%的纯线性就差不多了--不然现在的数字音源早被砖头拍死了。


既然你说“线性”,那请问这是在按照什么单位下量度声音的呢?并且是指什么量是线性呢?还有什么叫做“99%的纯线性”?——这个说法太含糊了,比如说现在有两个量a和b,能否请Timme兄用含有a和b的数学式子,来表达一下它们之间“99%的纯线性”的结果等于什么呢?


Timme 在 2006-4-2 21:39:55 发表的内容
提醒一下,“声学”与“听觉”是不同的,正如“光学”和“视觉”。红绿蓝三色能组合出紫色的视觉,而紫色比它们三色频率都要高,我们是否凭空“造”出了更高频的视觉?--粗略的讨论参见《费恩曼物理学讲义》第一卷“色视觉”章,这年头学高中物理竞赛的都看过这本书了。ps:最先证明光是电磁波的是用哲学,不是科学。


这里也提醒一下:你这里说的红绿蓝三色组合出来的“紫色”,并不是颜色定义中的纯“紫色”——因为纯紫色属于紫外线,人眼看不到。而我们平常所说的视觉中的紫色,具体来讲是RGB模式中R的饱和度取139,G取0,B取255的混合色,这种混合色含有混合频率,但混合频率的最高频率也就是蓝光的那个频率。

一句话说:我们只是把RGB参数为193,0,255的这种色彩搭配定义为“视觉中的紫色”而已。人脑的确不会凭空感觉出更高的频率:这好比:你用三原色混合出来的紫色,你看上去的感觉绝对完全不同于让你“看”真正的紫外线(其实您看不到)——感觉不同,就不能说人脑由三原色的混合,制造出了真正紫外线的感觉。

还有,既然您都承认“声学”与“听觉”是不同的,那为何在最顶上第一帖里用视觉的例子来讨论声学呢?


Timme 在 2006-4-2 21:39:55 发表的内容
甚至有这个可能:你按住人中来听音乐,比不按人中听音乐来得好听。主观上这是很荒谬的,但数学上你必须严格的证明它不对,否则就没有充足的理由去否定它。(回应你的“手机”假设)

最后我还有个自创的理论:紫外线人是可以感觉到的,具体表现为夜里暗处的噪点(人眼感觉到的噪点,不是DC)。你可用相机用的UV镜来检验一下。


什么叫做“数学上证明它不对”呢?难道物理学的终极审判便是数学?(下面又要拿大家熟悉的爱因斯坦来作例子了)——那请您想想:为何当年爱因斯坦的相对论提出来之后,没有颁给他诺贝尔奖?(爱因斯坦是因为发现了光电感应效应而获诺贝尔奖的)——原因是物理学的宗旨便是利用一些前提假设(比如说狭义相对论的前提假设便是光速不变性),用数学尽可能去逼近、描述自然现象,因此一套物理理论,不管它数学推导是如何严密,最后要经过试验的验证才能被接受——你不用试验去验证,怎么知道你的前提假设是否合理?是否充分?是否还需要添加或者删除某些假设?是否还有一些没注意到因素没有考虑到你的数学模型里去?

我觉得Timme兄对于物理与数学的关系似乎弄反了:物理不是用数学去证明的。数学只是提供一种工具(一种严密的语言),去描述、模拟出物理现象而已,我们只能用物理事实验证这个数学模型精不精确,和现实够不够贴切。

有些物理现象更加无法用严格的数学去“证明”:比如说你在市场上买一块牛肉,请问你如何用严格的数学去证明这块牛肉对应的那头牛,在饲养、宰割、处理等阶段没有被加进任何有害的化学物质?——化学物质有无穷多种,你总不可能一样一样去检验吧?你也不能询问牛的主人——你怎能确定他没有说谎?就算用测谎仪,测谎仪原理只能保证80%的成功率,你怎么知道那20%的可能性是否发生了?如此等等,所以假如把物理和数学的关系弄反了话,那就麻烦大了。

关于您自创的人能感觉紫外线理论,我觉得您在这里跟我说没用。最正确的做法是您按照您的思路做几个试验,然后把结果写成报告或者paper提交给Nature或者Science这类杂志,假如您的试验是合理的,并且分析是逻辑的、严密的、能说明问题的,那学术杂志绝对会全文照登的,何况这个结论还是这么“爆炸性”的。

不过想确认一下:你这里说的人能够感觉到,应该限制在人的眼睛吧?否则的话,那我们照样可以推出人能够感受到α 粒子(不可思议吧,α 粒子这么小,人怎么能感觉到呢)——核爆炸听说过吧,让人站在核爆炸现场旁边,假如爆炸过后能活下来的话,那各种放射性粒子,包括α 粒子,足够把那个人打得全身器官都癌变了。癌变了,够痛苦吧,这种痛足够能感觉到了吧。那是否我们就说“人能够感受到α 粒子”呢?——这样的结论是否有意义呢?

还有,说“紫外线”,请不要用波长是440纳米的那种颜色——因为440纳米是蓝色与紫外线的交界点。要说紫外线的话,请用波长是380纳米的那种。
最后编辑felixcat
TOP
9#

胡思 在 2006-4-5 12:40:53 发表的内容
我不知LP的频响是在什么电平测的,对于模拟信源,不同的信号电平频响是不同的。
如果现在所说的LP频响是0dB电平的频响,那-10dB电平、-20dB电平的频响是多少呢?音乐中的高频信号电平都比较低,用低电平的频响更有说服力。
CD因为格式所限,频响都是一样的。
一般的分析足够满足普通消费者;对于发烧的东西,需要全面的分析。其实,信噪比、失真也是一样,貌是指标高的,其实指标不一定好。
我们尊重专家、权威,但不要迷信。人人都有局限性。


"音乐中的高频信号电平都比较低"——对于20 - 20k范围内的信号有时候是,有时候却不见得是,尤其是高频成分比较多的弦乐器的合奏,这是Testament SBT1364舒伯特第六交第一乐章2分54秒左右的频谱分析:

[upload=jpg]Upload/2006451634343315.jpg[/upload]

左边的黄框的频率范围大概是4k - 9k中频,而右边的黄框则是18k左右的高频,从图中可见,高频段的能量并不小,甚至高频各频段能量的和似乎并不小于中低频能量的和。

要用足够的电平来测试是有根据的。因为有些敲击乐器在20k以上拥有很大的能量,由加州理工大学电子学系教员James Boyk的这份报告:

http://www.cco.caltech.edu/~boyk/spectra/spectra.htm

我们得知:对于管弦乐团常用的敲击乐器铙钹,它撞击发声的时候,有40%的能量是处于高于20k的频段的;另外还有不少乐器它在高于20k的频段内有不可忽略的能量。

所以用足够强的电平来测试一种播放格式是有根据的。另外,电平越大、频率越高的时候,一个电子系统的非线性效应就表现得越明显,因此用足够强的信号去测试,更有利于我们评估到这个系统的非线性特征。

信噪比、失真都是硬指标,指标高的必定比指标不高的那些更忠实于源信号;至于个人喜欢指标高或者低的(或者说喜欢某种失真或者不喜欢某种失真),那这已经不属于电声学的范围了。当然衡量一个系统并不只是常见的这几个指标,在更专业的领域里面早已有一大堆成熟的指标规范来全面衡量了——只不过普通消费者无法熟练掌握,也没必要去了解这些;这就好比我们使用电脑,但不必知道如何去制造电脑芯片。
TOP
发新话题 回复该主题