ISSCC2019纸张分析(1)高速接口

来源:《海昆01》内容,谢谢 ISSCC2019论文分析目录:1。第六场超高速电子会议在集成电路设计中的地位毋庸置疑 ISSCC2019刚刚结束。接下来,我将推出一个关于公共号码的新系列,与您一起阅读今年的ISSCC报纸。 今天,让我们来看看第六届超高速有线电视会议的内容。 (这篇文章有4500字,干货满了,可以读几遍。)在今年的ISSCC,高速接口(有线)的方向受到了极大的关注。 除了两篇会议论文,在晚上的现场演示会上,就我所见,除了人工智能相关的芯片,最多的就是高速接口。同时,第一天的教程和最后一天的论坛也与高速串口相关。 我认为这种热状态会持续几年。 预测能否保持热度可以从两个方面来看:第一,需求是否继续增长 这是毫无疑问的。现在5G、人工智能芯片、数据中心和大型交换机都需要传输大量数据。在有数据传输的地方,需要高速串行端口。 高速接口芯片作为一种基本的数据接口,在大型系统中是不可缺少的。它不与5G和人工智能等热门技术竞争,而是受这些技术发展的驱动。 第二是现有技术能否满足多年的需求。 目前,目前的高速接口芯片还没有达到这一点,在能耗和最高数据速率方面还有很多改进空。 从本文中,我们可以看到几个总体发展趋势:1)虽然56G市场出货量尚未上升,但业界已经开始设计单通道112G高速接口收发器。 这是竞争的结果。每家公司都尽力向前推进,如果不推进,就会倒退。目前,没有人拥有无与伦比的技术优势,所以交货时间非常重要。 一开始,当我设计56G时,我觉得112G的速度直接翻了一番,启动起来有多难,当我真正启动112G时,我觉得很难再回来,但设计还可以。 2)高速接口的方向是非常非常先进的技术。 本次会议的八篇论文,除了最后两篇论文,都采用了16/14纳米或7纳米FinFET工艺。 一方面,对高速接口电路进行了优化。速度的上限是由技术的限制决定的。没有先进的技术,就没有办法与其他人竞争。 另一方面,许多高速接口的应用场景被集成到一个更大的芯片中,称为ip。选择流程时,有必要考虑主流客户将使用什么流程,否则其他人将无法使用您的知识产权。 3)由于技术太先进、成本太高,学校很难在高速串口方面取得太多成绩。主要论文来自工业界。 该行业的玩家主要包括伯通、英特尔、inphi、xilinx、Nvidia等。也有像我公司这样的初创企业。 伯通可能是最好的,但是价格也很贵。 Xilinx和Nvidia主要为自己制造,不出售知识产权 市场上没有多少知识产权供应选择。 4)从技术上讲,56G高速接口架构相对稳定。主流选择是:接收基于数字信号处理器和时间交织器,通常先跟踪/保持4到8个,每个跟踪/保持都有带多个ADC的片,发射使用半速率 均衡方面几乎都是CTLE、1-TAPFE、几个TAPs的FIR和TX-FFE。 56G的下一个技术挑战是低功耗和更强大的自适应能力。 至于112G高速接口,我认为我们追求的目标是先实现,然后再优化功耗。我们可以看到建筑选择的一些趋势,但是它还没有稳定下来。 本届会议共有八篇论文,包括三篇56G论文和四篇112G论文。 让我们看看每篇论文都做了些什么 1)100Gb/s 11.1 pj/BRxFrommZiurich这是我所看到的第二篇针对单个通道超过100 GB/s的rx论文。上一篇论文是Xilinx于2018年在超大规模集成电路上发表的,但其能效远低于上一篇论文。 除了速度快之外,本文的主要亮点是具有1抽头规格的DFE 推测是一种提高离散傅立叶变换速度的常用方案,这种方法对NRZ信号有好处,但不太昂贵。 然而,对于PAM4来说,直接进行仿真需要12个比较器,额外的硬件成本相对较高,所以PAM4仿真一直是一个难点。 本文将比较器的数量从12个减少到8个,脉冲响应为1+0.5D,从而达到节省功耗的目的。 但是,这样做的局限性是需要预先通过CTLE将信道的响应调整到1+0.5D。通常,CTLE的可调范围是有限的,这在实际使用环境中是不可能的。 现场的一些人问了这个问题,如果通道非常小,如何获得1+0.5D的响应 提交人回答说,如果通道非常小,他们可以关闭DFE而不是DFE。 我不确定这种方法在产品中是否会受欢迎。 我认为在工程设计中有这样一个标准:如果一个简单的方案已经可以达到可接受的效果,那么就不要使用一个更复杂的方案,因为复杂性本身就是成本 整个接收机的系统框图如下 总体上,采用方形方案降低时钟分配功耗。 VGA直接驱动32个比较器,无需跟踪/保持。这里的负载会稍微大一点,这估计是带宽的瓶颈。因此,这里增加了一个电感来扩展带宽。 SR出来后,仍然是4U(25G)高速数据,是数字信号处理器无法处理的。当数字万用表变慢到32UI后,数字信号处理器可以处理它。 CTLE没有感应器,这很严重,但是论文没有给出CTLE的单独测试结果。 芯片完成度不高,最终采用探针台进行测试。 2)60GB/sdspbasedtrfromwaicanada这是华为加拿大研究所的一篇文章 整体结构相对常见。接收端CTLE连接到一个4通道时间交错模数转换器,每个轨控驱动8个SARADC(2-7b可调)。这几乎是基于数字信号处理器的56Gb/sRX的标准做法。 发射机采用工业上常用的半速率、FFE带相位插值器和3抽头。 本文的重点是大量传感器(温度、过程、阈值电压等)。)和可调电路集成在芯片上,这可以根据不同的信道、环境和ber要求从理论上优化功耗。 去年的ISSCC也有类似的想法。它通过改变FlashADC的位数来调整电源/贝特雷德关断。如果你感兴趣,你可以去看看。 华为有更多的可调整位置和更高的完成度。最终测试结果表明,自适应技术可以降低功耗约30%。 但是我有两个问题 一是成本 在模拟电路中,尤其是高速电路,每次调整都有成本。晶体管开关总是会引入额外的寄生电容和寄生电阻。这个芯片的价格是多少?好处值得比较吗?文章中没有给出具体的数值,所以很难仅仅通过看文章就得出结论。 二是自适应算法问题 这里有太多的调整点,其中许多都是不相关的。它需要处理技术、温度、信道损耗、误码率等。如何适应?对于如此大的扫描空,如果扫描是暴力的,那么握手时间太长,肯定不起作用。 如果你使用一些策略,你会被困在当地的一个坏地方而不能出去吗?如果适应性不是很强,那么实用价值就小得多。 不幸的是,从报纸上也看不到这些数据。 另一点是,本文的全局时钟由单端反相器传输,这将节省一些功耗。 然而,它似乎很少这样使用。通常,它是双线差分时钟。理论上,它对电源有更好的噪声,对返回路径的要求更低。 3-4)56GB/sdspbasedtrfrommesilicondmediatek这两篇论文比较相似,都采用7nm dspbased56GB/Stransreceiver 他们的结构也是一种非常常见的结构,从论文的角度来看没有什么可说的。 如果我现在制定一个新的56G系统计划,我也会从这两个结构中选择一个。 然而,它们的功耗极其出色。eSilicon的单通道功耗仅为243毫瓦,而联发科技(联发科技)仅给出模拟部分的功耗,仅为180毫瓦,充分展示了两家公司的设计优化能力 一个有趣的事情是联发科技在接收端使用4×8(4磁道/保持,每个驱动器8个磁盘片)结构,这是最常见的选择。 而eSilicon选择了8×5(8轨/保持,每个驱动5个SARADCSlice),所以他需要8个相位的8UI时钟。当时钟校准稍微复杂时,总共有8个跟踪/保持。引入前CTLE的负载电容可能稍大,但每个跟踪/保持的大小可能较小,每个跟踪/保持的充电和放电时间较长。 哪种结构最终更好?我可能更喜欢4×8。 然而,似乎很难获得这些问题的直接证据。 架构的比较取决于太多的因素。 我们很少有机会将两种架构都制成芯片来直接衡量它们的性能 即使某一种架构的测试结果稍好一些,也可能是这群人有很强的优化能力,不能直接证明该架构的优势。 最后,从建筑的演变趋势中只能看到一点点线索。 5)100Gb/spam4trxFrominPi是另一个超过100Gb/s单通道并采用基于数字信号处理器的TRX 基于DSPbBased 100Gb/s的RX难点之一是如何选择ADC。 56Gb/s通常是4×8,因此这种切片的速度约为875兆赫。 在112克,切片本身的速度很难翻倍。它只能采用在空之间改变时间的策略,并使用更多的时间间隔(timeinterleavedADC)来实现更高的整体速度。 所以总共需要64片。这64个切片是如何分布的,8×8还是16×4?如何驱动如此大的寄生电容?它是一个超级缓冲区,驱动8轨道/保持在一起,还是分为两个阶段?去年xilinx的112GRX纸张是一个驱动四个二级缓冲器的大缓冲器,然后每个驱动两个磁道/保持 仍然很难说哪种结构最终会赢得主流。 因为它仍然太小,不能生产112克 在Inphi的论文中,RX端选择了16×4的结构,因此VGA需要推动16轨道/保持。此外,VGA并没有使用电感来扩大他身材的带宽。我不知道他是怎么神奇地创造出这么宽的带宽的。 100克RX的另一个难点是CTLE,它很难设计,因为它需要宽带、峰化可调性和线性度。 CTLE没有被纳入本文。 在发射方面,本文选择半速率结构,这是发射中唯一超过100克的半速率结构 半速率(HalfRate)的频率比方形高,所以更难传输。 然而,它简化了多路复用器的设计。最后一个多路复用器级只需要2:1,这是TX中最高速度的节点。与4: 1相比,2: 1可以减少大量寄生电容 虽然大多数100GTX选择方形,但我不认为它一定比半速率有优势。 毕竟,时钟路径只需要一个频率(窄带),而数据路径是宽带。 窄带电路比宽带电路更容易设计。 通过这种方式,HalfRate实际上是将宽带上的负担转移到窄带上,这应该会带来优势。 一般来说,25GHz时钟太贵,但如果可以增加电感和传输线谐振,时钟传输网络的功耗不会特别大。 不幸的是,本文没有给出时钟和多路复用器电路的具体实现。 TX还使用一种小技术,通过正反馈提高逆变器的速度,使上升沿和下降沿更陡,这实际上有点类似于均衡的概念。 去年,ISSCC的两篇文章采用了类似的方法。 我模仿过这样的结构,它应该是有效的,但是它会消耗更多的能量。 6)6)128 GB/STxFromIBm的亮点是4: 1多路复用器的优化 德州仪器的结构与英特尔去年的112G相似,也是一个CML驱动程序。 顺便说一下,SST在56G中主要用作TXDriver。 高速串行端口的发送基本上是一个串行器加一个驱动器。 前进速度越低,所以我们应该尽最大努力简化后级,把负担推到前进速度越低越容易处理的地方。 这大概就是这个想法 在多路复用级,去掉堆栈的时钟晶体管,在前一级增加一些逻辑,产生一个1UI脉冲信号 大多数时候,电路优化是一种权衡。 宏观指导思想是把负担留给更容易解决的地方。 这是一个较慢的电路,将负载推到前一级。最后一种是时钟路径,将负载推到窄带。 7) 112 GTX在40纳米的远东大学这是一篇来自台湾学术界的论文。它在40纳米时发射了112克,令人印象深刻。 我以前见过这篇文章的作者几次,还一起看过一部电影。 本文不仅反映了学术界的无奈,也反映了学术界应该选择的方向。 但这是因为他们买不起最先进的技术,只能在落后的技术下竞争。方向在于学术界是否应该追求极端优化,并优先考虑技术的展示。 据空想想看,如果学校要求我设计一款112G TX:首先,FFE是必要的,否则眼睛无法睁开,效果无法显示;第二,不要在意可靠性。选择金属走线宽度时,只考虑性能因素。最好烧掉电线,减少寄生电容。第三,不要选择发射-数模转换器结构,也不要以牺牲速度匹配为代价,使用热电模块结构将小单元合并成大单元。第四,适当增加电源电压;第五,我们不能仅通过设置可调节的低速点,如偏置电压等来调节高速公路的成本。 有了这些,我们应该可以用落后的技术来说明速度…8)36gb/sadaptivcdrfromromuniversityfor跳过这篇文章…在这里,我相信你可以看到,我以前做射频毫米波,现在我也知道很多关于高速接口的知识。 我要感谢我现在的公司——电子邮政技术公司。我在这里学到了很多高速接口电路设计的经验。

未经允许不得转载:威尼斯人app » ISSCC2019纸张分析(1)高速接口
分享到:
赞(0)

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址