高性能公钥密码协处理器的设计与实现

童元满^[1]2004年在《高性能公钥密码协处理器的设计与实现》文中研究表明在信息安全领域中,公钥密码技术有着广泛的应用,公钥密码技术为目前解决身份鉴别与密钥交换的主要技术手段。当前广泛应用的公钥密码算法主要有叁种:基于大整数因子分解难题的RSA算法、基于离散对数难解性的DH算法,DSA算法和ElGamal算法,以及基于椭圆曲线离散对数难解性的ECC算法。这些公钥密码算法的关键操作为大整数模幂乘操作与椭圆曲线标量乘法操作,均属于计算密集型运算。出于运算性能与安全性方面的考虑,一般采用协处理器的方式实现公钥密码算法。根据不同应用对于公钥密码算法运算性能以及硬件复杂度和功耗的不同要求,可将公钥密码技术在信息安全领域中的应用分为两类:一是以PKI安全体制中认证中心CA与可信计算平台TCPA中TPM为代表的高端应用;二是针对嵌入式系统的低端应用。针对不同应用的特点,当前公钥密码协处理器的设计与实现研究工作主要包括叁个方面内容:针对高端应用的高速专用芯片设计、针对嵌入式应用的低端设计以及具有一定通用性与可扩展性的设计。本文在深入研究公钥密码算法的运算特点及其实现的基础上,针对高端应用,设计并实现了一种具有较高性能与性价比的大数模幂乘协处理器;针对各种公钥密码算法的不同特点以及不同应用的需要,设计并实现了一种支持上述叁类公钥密码算法的可扩展公钥密码协处理器,它可以根据运算性能与硬件复杂度的设计折衷要求对协处理器结构进行灵活扩展。在本文的研究过程中,主要取得了以下一些研究成果: 1.在大数模幂乘协处理器中,核心部分为一大数模乘单元。本文在高基数进位保留Montgomery模乘算法的基础上,给出了一种高效的大数模乘实现结构,其核心为一大数乘累加单元,且可同时执行两个并行且规模相同的模乘操作,直接支持中国剩余定理。 2.在公钥密码运算中,存在较多的取模操作。本文提出了一种基于SD数据表示的大数除法算法,可以有效支持公钥密码运算中必须的取模操作,使得取模操作不会成为公钥密码运算性能的瓶颈。 3.基于硬件复杂度与功耗以及安全性方面的考虑,本文对可扩展公钥密码协处理器的实现进行了合理的软硬件划分。协处理器直接支持模乘、模加减操作以及Montgomery预处理操作,其它更高层次的操作如模幂操作与标量乘法操作则通过软硬件协同流水方式实现。 4.模N剩余类环Z_N、素数域GF(P)以及有限域GF(2~m)上的模乘与模加减操作的实现具有高度的相似性,本文在可扩展公钥密码协处理器的设计中采用了统一的硬件结构实现不同域(环)上的模乘与模加减操作。 5.在椭圆曲线标量乘法操作的实现中,模加减操作占有较大的比例。本文针对椭圆曲线密码运算的特点,对模加减操作做了专门优化,避免了不必要的比较与约简操作,可以有效提高椭圆曲线标量乘法操作的运算性能。

黎明^[2]2011年在《一种高性能可扩展公钥密码协处理器的研究与设计》文中提出公钥密码体制由于解决了对称密码体制中密钥传输和管理困难等问题,在信息安全领域中发挥重要作用,通过数字签名和认证技术有力保障了网络数据传输的完整性和交易双方的不可抵赖性。RSA和ECC(Elliptic Curve Cryptography)是两种最为重要且应用最为广泛的公钥密码算法。RSA的安全性是基于大整数素因子分解难解性,ECC的安全性是基于椭圆曲线离散对数问题难解性。ECC算法具有比RSA算法更高的单比特安全性,在同等安全强度下,ECC的密钥长度比RSA小很多,因此所需要的存储空间和传输带宽较小、计算复杂度低、消耗的功耗较少。由于ECC的独特优势,ECC可以广泛应用于从低端嵌入式系统到高端服务器等的广阔领域。用软件实现公钥密码算法的性能已经不能满足实际应用实时性的需求,且密钥极容易泄露。目前主要采用专用硬件协处理器的方式来实现公钥密码算法。本文对RSA和ECC算法的深入研究表明,RSA和ECC算法具有相同的核心基本运算即模乘、模加减、模幂等运算。而ECC的点操作可以通过这些核心基本运算来实现。在此基础上,本文提出一种高性能可扩展公钥密码协处理器,用来实现对RSA和ECC基本运算模乘、模幂、点加减、点倍加和点的标量乘法等运算进行计算加速,而整个密码协议采用软件和硬件协同的方法来实现。该协处理器的核心为并行计算的模算术单元阵列,每个模算术单元由一个高性能可扩展的Montgomery模乘单元和一个高性能可扩展的模加减单元组成。Montgomery模乘单元基于本文提出的一种双域统一的以字为处理位宽的高基数Montgomery模乘算法,其核心为多处理单元流水计算架构,支持双域任意位宽操作数的模乘运算。模加减单元采用以字为处理位宽的电路结构,避免了传统模加减电路所需要的模约减步骤,而且针对ECC运算进行优化,简化了ECC运算中的加法和减法,支持双域任意位宽操作数的模加减运算。该协处理器具有良好的并行计算能力,对模幂运算可以支持并行二进制算法和中国剩余定理,对ECC点加、点倍加、点的减法在多个模算术单元基础上进行了并行调度,有效的加速了RSA和ECC的基本运算。该高性能可扩展公钥密码协处理器的设计需要优化数据通路宽度、模乘单元中处理单元个数及模算术单元个数等设计参数。对这些参数的优化需要对该协处理器的面积和性能进行折中考虑。基于0.18μm CMOS工艺,本文对不同参数组合的协处理器进行了设计评估,并提出了选择最优参数组的方法。最后采用一组较为优化的设计参数,本文具体设计并实现了该协处理器,芯片最高工作频率为250MHz,面积为380kgates。芯片测试结果表明,该协处理器具有良好的计算加速性能,采用中国剩余定理完成一次1024bit模幂运算仅需232μs,完成GF(p)域192bit的标量乘法仅需242μs,完成GF(2m)域192bit标量乘法仅需222μs。

黎明, 吴丹, 戴葵, 邹雪城^[3]2011年在《高性能可扩展公钥密码协处理器研究与设计》文中指出本文提出了一种高效的点乘调度策略和改进的双域高基Montgomery模乘算法,在此基础上设计了一种新型高性能可扩展公钥密码协处理器体系结构,并采用0.18μm 1P6M标准CMOS工艺实现了该协处理器,以支持RSA和ECC等公钥密码算法的计算加速.该协处理器通过扩展片上高速存储器和使用以基数为处理字长的方法,具有良好的可扩展性和较强的灵活性,支持2048位以内任意大数模幂运算以及576位以内双域任意椭圆曲线标量乘法运算.芯片测试结果表明其具有很好的加速性能,完成一次1024位模幂运算仅需197μs、GF(p)域192位标量乘法运算仅需225μs、GF(2m)域163位标量乘法运算仅需200.7μs.

谢元斌^[4]2011年在《异构多核网络安全处理器硬件优化技术研究》文中研究说明高线速和数据安全保障的网络处理器在网络未来发展中具有越来越重要的作用。本文以网络处理器项目为基础，针对网络安全处理器的一些硬件（算术运算单元、安全加密模块等）展开研究，论文工作包括：1．实现XDNP异构多核网络安全处理器，其内的各个IP核均自主开发。该网络安全处理器包括1个XD-MP Core，6个包处理引擎PE，1个安全协处理器单元，以及存储控制（SRAM和SDRAM）单元和网络数据交换总线单元。将片上总线分成两类，分别为控制平面总线和数据平面总线。提出一种分离式并行交换结构的片上总线，将数据平面总线分离为命令总线和数据总线的多核共享形式使得经过命令总线仲裁后的总线请求在得到数据响应时可以通过不同的数据总线并发的进行响应，大大提高了片上总线的传输速率。2．从逻辑关系上优化了快速加法器中的组进位产生信号和组进位传播信号，并采用差分串联电压开关传输门(DCVSPG)逻辑电路实现，再用这两个信号产生组进位信号，该方法解决了传统静态曼彻斯特链进位旁路电路的逻辑冲突问题，又避免了动态曼彻斯特链进位旁路电路在预充阶段的延迟和功耗开销，比之标准CMOS门电路有更快的速度和更低的功耗。讨论了DCVSPG逻辑中形成树状结构的NMOS晶体管的沟道宽度对整个电路性能的影响，同时建立了一个估算DCVSPG逻辑电路延迟的简单模型。并利用该模型对DCVSPG逻辑产生组进位产生信号和组进位传播信号的电路进行优化，使其能达到指定的延迟指标。采用DCVSPG逻辑电路实现了一种32位加法器，其性能比之由标准单元设计得到的同类结构加法器有很大的提升。3．RSA密码系统性能受到长整数模乘幂运算速度的制约。为了提高模乘幂运算器的速度，采用两级进位保留加法器（CSA）结构改进了蒙哥马利模乘算法。通过插入寄存器缩短了电路的关键路径，保证了CSA操作数的同时性，显着提升了模乘运算器速度。另外，通过调整从左到右的二进制模幂运算的模乘运算次序，避免了大部分模乘运算结束后的长整数加法，大大节省了时间。将采用本方法实现的1024位RSA模幂运算器比近年最具代表性的从左到右二进制模幂运算器的有较大性能提升。4． ECC密码系统在加解密的计算中需要使用到大量的模乘运算和模平方运算。在素域上不但优化了传统的蒙哥马利模乘运算，提出了2位超前蒙哥马利模乘运算器，还利用平方运算所固有的特性对部分积进行重构，使部分积的数量减少一半，并以此为基础提出折半模平算法，设计专门针对模平方运算的电路，使模平方运算的时间仅为模乘运算的一半。在二进制域上，提出字串行模乘算法，将被乘数左移两个字，使得硬件实现能采用流水线技术，同时简化了关键变量的计算方法，缩短了电路计算的延时，提高了性能，能快速有效的计算出两个操作数的模乘结果。提出双字串行模平方算法，利用二进制域平方运算所固有的特性直接得到平方运算结果，再利用蒙特马利方法对结果约减，可每次处理两个字长，其计算时间也为模乘运算的一半。以这些算术运算电路为基础实现了ECC双域密码协处理器，其具有较高的性能。5．提出可切换式TAM结构，某些IP核通过切换电路挂接在多组TAM上，可以使用多组TAM来完成对一个IP核的测试，减少空闲时间，缩短测试用时。按特定的排序规则，采用0-1规划先给每个IP核分配一组TAM，再采用一种启发性搜索算法，挑选合适的IP核使用多组TAM测试。对ITC2002基准电路的实验结果表明，该方法的测试用时较小，优于其它一些测试调度方法。

陆荣华^[5]2008年在《专用指令集安全处理器设计与实现》文中研究说明随着信息安全技术的快速普及,密码学算法获得了越来越广泛的应用。在嵌入式信息安全技术领域,存在两种传统的密码算法实现方法:一种是在嵌入式系统中对通用嵌入式处理器(GPP)进行编程,将复杂的密码运算用程序语言实现。这种可编程的实现方式灵活性好,但一般速度较慢,随着实际应用中算法运算强度的不断提高,这种方法已越来越不能适应要求;另一种方法则是在嵌入式系统中,针对特定的算法设计硬件加速器(ASIC)。这种方法无需复杂的软件编程,算法实现速度快,但同时ASIC的实现方式也带来了成本高、系统复杂和灵活性差等问题。为了克服传统方案的缺陷,目前专用指令集安全处理器作为一种全新的设计方案得到了重视和发展。在应用密码算法时,专用指令集安全处理器兼具通用处理器的灵活性和ASIC的高效性,并能够有效地降低设计成本。本文基于专用指令集架构提出了一种低成本、高性能的安全处理器解决方案,能够适用于各种嵌入式信息安全系统。本文通过分析RSA、AES和SHA-1等算法,提取并改进了算法中最复杂的运算步骤。在处理器结构内部,优化处理器的数据通路,并以较少的硬件代价大大加强了运算单元对这些步骤的支持。本文设计的专用指令集具有很高的密码算法执行性能,同时也为算法实现提供了很高的灵活性。因此本文的安全处理器能够实现软件的灵活性和硬件的高效性的有机统一。为有效验证本文的软硬件设计,本文以安全处理器为核心搭建了SoC测试平台。SoC芯片采用了SMIC 0.18um工艺流片,测试结果表明,该芯片的各项性能指标都达到了预期的目标。由于本文设计的处理器具备低成本、高性能和灵活性好的综合优点,因此它在无线通信设备、高端智能卡、安全潜入使系统等领域将具有非常良好的应用前景。

刘兵^[6]2012年在《统一架构的ECC与RSA密码处理器的设计》文中研究说明近年来，随着互联网技术的飞速发展，信息安全已成为亟待解决的问题。使用公钥密码体制是提高信息安全性的重要方法。硬件实现的密码系统由于其诸多优势成为新的研究热点。本文在对多种公钥密码硬件实现算法进行了研究的基础上，提出了一种针对素域及二元域ECC和RSA公钥密码系统所设计的硬件密码协处理器架构，从硬件上实现了对高性能密码算法的支持。首先，本文通过对RSA算法及ECC算法具体运算流程的分析，总结出了模乘运算是制约它们计算速度的共同计算瓶颈，解决模乘的速度问题是提高RSA和ECC计算速度的最根本方法。然后，为了消除一般模操作中影响速度的除法，引入了蒙哥马利算法作为模乘的基本算法，并介绍和分析了多种改进的蒙哥马利模乘算法，针对硬件实现的目标，确定了基于CIOS算法进行硬件设计的思路。另外，为了能够同时支持一般素域和二元域两种ECC常用的有限域，对CIOS算法做出了调整和改进。最后，提出了密码协处理器的总体硬件架构，设计了系统的运算、存储和控制叁大模块以及叁个模块间的互联方式，运算部分中设计了支持双域的乘法器，因此可以实现同时支持素域和二元域下的模乘计算。最终的实验结果表明，本文所优化的双域CIOS算法能够正确的完成所要求的运算，设计出的硬件能够完成模幂及模乘功能，因此，本文提出的算法改进和硬件架构设计方案是可行的。本文设计的密码协处理器，能够完成192bit、256bit、512bit、1024bit四种数据位宽的模乘和模幂的计算，在100MHz的主频下，完成256bit素域模乘、256bit二元域模乘和1024bit模乘所需的时间分别为0.92、0.82和7.3微秒。所有硬件模块在SMIC0.18微米CMOS工艺库下的综合面积为68K门。具有较好的速度面积比。

赵学秘^[7]2006年在《可编程密码处理器关键技术研究与实现》文中研究表明密码算法是保证信息的机密性、完整性以及可用性等安全要求的基本手段。性能和实现安全等方面的原因使得密码算法需要采用硬件方法实现。专用集成电路(ASIC)和细粒度可重构结构是硬件实现密码算法的两种传统方法。ASIC方法效率高,却无法满足应用环境中灵活实现密码算法的需求。细粒度可重构结构灵活性强,但其通用性带来了较高的设计代价。由于密码算法具有相对固定的处理模式,相关研究工作者分别以空间可编程和时间可编程为基础,面向密码处理领域提出了多种密码专用可重构结构和密码处理器,在一定程度上平衡了性能与灵活性的折衷。然而,已有的密码专用可重构结构普遍存在算法映射困难的问题,使其应用受到了限制;而目前的密码处理器虽然借助编译工具可方便的开发密码算法,但受限于传统体系结构,能够增加的定制功能单元的复杂度及其数量均有限,数据通路效率偏低。本文从时间可编程性出发,将传统体系结构的软硬件界面下移,使得软件看到处理器内部的数据传输以及互连网络,可支持复杂却高效的数据通路,更容易匹配密码处理模式,最终实现高效可编程密码处理器。主要工作及研究成果如下:1.提出了传输触发体系结构(TTA)指导下的专用指令集处理器(ASIP)自动生成方法。TTA中,软件所见为功能单元(FU)之间的数据传输,故硬件设计可以支持寄存器文件分割以及定制更多更复杂的FU,同时解决了指令集生成、可重定向编译等问题。提出了配置流驱动计算体系结构(CSDCA),将软硬件界面进一步下移,由编译器完成处理器内的传输路由,以支持高效却复杂的互连网络,采用段式总线互连技术,较好的解决了随着FU数量增加,数据传输延迟成为主频瓶颈和总线功耗冗余严重等问题。提出了通过双模式计算提高代码密度的方法:程序中的关键循环在CSDCA模式下执行以提高性能,其余部分则工作在RISC模式下以降低代码冗余。这些工作建立了支持高效数据通路的ASIP设计流程。2.提出并实现了一种高性能模幂处理器。提出以基数长度为处理字长的高基数Montgomery算法(RBHRMMM),结合并行模幂算法,将大数模幂运算拆分为原子操作矩阵序列,按照列共享原则设计列共享超流水处理阵列(CSSA)。CSSA作为特殊功能单元,基于上述ASIP设计流程,得到完整模幂运算处理器SEA-II,其电路等效门数为923k。基于SEA-II的1024位RSA解密速度达到6,353Kbps。3.提出并实现了一种可扩展双域公钥密码整体算法处理器。提出双域统一RBHRMMM算法,并以此为基础设计出行共享流水单元(RSSA),将RSSA耦合到已有ASIP设计流程,并增加大数寄存器,得到公钥整体算法处理器SPKP。SPKP具有如下特点:①通过软件工具,可快速开发出整体公钥密码系统;②RSSA具有良好的可扩展性;③流水单元实现矢量乘操作,并支持GF(p)和GF(2~n)双域;④通过调整总线宽度和RSSA中流水单元数量,可满足不同性能/面积约束。4.提出并实现了一种高性能安全Hash处理器。提出新型Hash算法计算模块划分方法,即分为压缩模块和扩散模块,而且每个模块包括队列、混洗和累加等叁个子模块。据此设计出可重构功能单元,耦合到已有ASIP设计流程中,得到安全Hash处理器PSHP。与细粒度可重构结构相比,其逻辑利用率高,配置速度和运算速度快,而且开发方便;与ASIC实现相比,可以在性能和面积开销较小的前提下,灵活的支持常用Hash算法。5.提出并实现了一种高性能分组密码算法处理器PSCP。提出分组密码处理器优化的两个原则:①增加置换单元和子密钥存储单元,将核心运算期间的访存次数减少为零;②对基本操作进行重新组合,均衡延迟分布。与ASIC实现相比,在CBC、OFB、CFB等分组相关的加密模式下,PSCP获得相似的性能,但更灵活。与密码专用可重构结构相比,PSCP开发方便,可以实现包括密钥扩散在内的完整算法,具有更好的安全性。以上研究工作首先建立了支持复杂数据通路的ASIP设计流程,然后针对具体种类的密码算法和实际应用环境需求,研究并实现了四种效率高、可用性强的可编程密码处理器。处理器采用的目标工艺均为0.18μm 1P6M CMOS工艺,其中模幂处理器已经实现应用。

马士超^[8]2006年在《实时数字安全处理器研究与设计》文中研究指明数据安全涉及存储安全、网络安全与视频/图像安全叁大领域。在每个安全领域都存在若干种协议,例如针对网络安全的IPSec协议,针对JPEG2000图像的JPSEC等等;而协议是以底层的算法为支撑的,例如无论IPSec还是JPSEC都利用加密算法,认证算法或者密码学中的其它算法来实现相关内容的安全性。由此可知,密码学中的算法是安全协议的基石,而安全协议又是相关安全领域的基础。安全算法建立在计算复杂度与单项处理函数理论基础之上,如果不能有效实现则很可能成为系统的瓶颈。因此采用硬件加速的方式是非常有必要的。实时的安全芯片的设计将面临许多需要同时满足的相互冲突的设计挑战与约束,例如: - 安全性,一种针对数字安全协议的处理器实现需要达到系统所要求的安全性; - 实时性,安全性的实现不能降低系统的性能; - 实现系统需满足环境施加的物理约束(尺寸,重量与功耗)。总之,在进行安全芯片的设计时,我们不仅要考虑使用的协议满足安全性,更要考虑这些算法的运算量和实现复杂度。在目前的IC工艺与条件下,使用FPGA等VLSI硬件实现安全协议,是最有可能满足系统安全性,实时性的方案。因此,论文研究工作的动机和目标是:针对存储安全、网络安全与视频/图像安全设计优化协议;其次是提出合理的SOC结构,最大可能降低所设计系统的资源使用量,从而最终实现性能均衡优化的安全芯片。通过论文的工作,我们取得了一些相当有意义的结果,主要包括: 1、提出了可以实现存储安全的一个整体方案; 2、设计了一种称为直通转发的安全存储结构,理论分析和实际测试表明该结构可以在不降低系统性能的前提下,达到存储系统的安全性要求; 3、提出了一种称为Flow-Through的网络安全实现结构,理论分析和实际测试表明该结构相对于目前已有的安全实现结构在性能上有很大的提升。 4、提出了一种用于JPEG2000的选择性加密算法,可以在只对压缩码流的15%进行加密的情况下达到JPEG2000码流的安全性; 5、设计和实现了数字电影中JPEG2000数据码流数字版权保护的FPGA原型平台; 6、提出了一种基于IPSec进行JPSEC设计与实现的方案,并依据此方案提出了JPSEC的几项提议。论文中这些结果的取得,首先对数字安全领域的相关协议制定,体系结构设计与相应的实现有很大的促进作用;另外,论文使用的应用、协议、算法与体系结构结合优化设计的专用信号处理器设计思想能给其它高性能专用处理器设计以参考和借鉴。

李青^[9]2006年在《ECC硬件算法研究及协处理器实现》文中研究说明随着计算机网络的发展和普及,传统的密码系统(对称密钥系统)已经无法满足人们在信息安全方面的需要,这尤其体现在密钥管理、数字签名和身份认证等方面。在这种情况下,斯坦福大学的Diffie和Hellman于1976年首次提出了一种全新的密钥系统——公钥密码术(非对称密钥系统)。ECC(椭圆曲线密码体制)是一种新兴的公钥密码体制,与已经被广泛采用的传统的公钥密码体制RSA相比,它有着自身突出的优势。椭圆曲线离散对数问题(ECDLP)被认为是比离散对数问题(DLP)更为困难的数学问题,因此目前世界上仍没有有效的破解ECC的方法,且与其他公钥密码体制相比,在同等的安全级别下,它所需要的密钥长度更短。然而,尽管ECC的数学理论问题已经基本解决,但其在实现上仍存在一定的难度,尤其是高速的椭圆曲线点乘运算,这主要依赖于硬件的处理速度,以及算法本身的优化和改进。本文正是为了提高ECC的处理效率和速度,在追踪了国外的最新技术的基础上,针对相应算法进行研究和改进,设计出一种支持多种通用曲线的高性能ECC协处理器。论文首先介绍了ECC的基本数学原理,同时描述了它的相关标准、技术特点和应用范围。数学理论是椭圆曲线密码体制的基础,从此着手开始论文有助于对后文更好的理解。接下来我们会针对ECC中涉及的各个运算模块,对硬件设计中所用到的一些特殊算法给出相应的证明或者说明,这包含一些二元域上的基本数学运算算法和椭圆曲线上的点乘算法。算法部分是硬件设计中的重点和难点之一,好的算法可以使得硬件计算的步骤和时间大大降低,哪怕某个步骤只缩短很小的时间,对于整个处理过程来说都是获益匪浅的。随后我们进入到协处理器的设计部分。这个部分包含了协处理器的整体框架、各子模块的结构、控制模块的设计和指令集设计等方面。我们将着重论述协处理器设计中的每个细节,这是本文的重点。最后,论文给出了ECC协处理器的仿真图以及与软件设计的分析比较,并对自己做的工作进行了总结和展望。

李博^[10]2015年在《椭圆曲线密码处理器关键技术研究》文中认为椭圆曲线密码处理器是椭圆曲线密码实现的重要方式,椭圆曲线密码处理器关键技术研究具有重要理论和实践意义。同课题组已有一款支持双域576比特以内曲线长度的椭圆曲线密码处理器,其在同类处理器中性能突出,但是资源消耗巨大。本文基于此款椭圆曲线密码处理器,以优化性能资源比为目标,从椭圆曲线密码处理特征入手,针对椭圆曲线密码处理器体系结构和运算单元两个方面开展研究。论文研究了在仿射坐标下实现点加和倍点的调度特征,建立了点加和倍点调度优化模型,提出了异构双路并行的处理器体系结构;在此基础上研究了超长指令字(Very Long Instrustion Word,VLIW)指令面向椭圆曲线密码应用适配特点,吸收超标量结构乱序执行思想,提出了一种VLIW-matrix指令执行模式;针对异构双路并行结构和VLIW-matrix指令执行模式,提出了分层分簇式存储结构,设计了分层式寄存器堆和向量结构存储器,能够有效提高数据调度效率,提升了椭圆曲线密码处理器处理性能。论文研究了椭圆曲线密码处理器运算单元设计,采用在仿射坐标下优化模除运算的设计思路,提出了双比特扫描模除算法,设计了高速模除单元;随后提出了双比特扫描模乘算法,设计了基于加法器的模乘单元;最后,对模除和模乘单元结构进行了统一,设计了以模除结构为基础、可以实现有限域全部运算、功能可裁剪的统一功能单元。理论和实验评估表明,基于本文优化的模除、模乘单元,在仿射坐标下实现点加和倍点超过了投影坐标下实现性能,且功能单元资源极大缩减。最后,本文对提出的椭圆曲线密码处理器体系结构和运算功能单元进行了实现,并从软件模拟、硬件仿真、FPGA验证等不同层面进行了系统验证。性能对比结果表明,本文的设计优化达到了保持较高性能下优化资源的设计初衷,以原处理器38%的资源实现了94%的性能,为设计高效的椭圆曲线密码处理器提供了新的设计思路和实现技术。

参考文献：

[1]. 高性能公钥密码协处理器的设计与实现[D]. 童元满. 国防科学技术大学. 2004

[2]. 一种高性能可扩展公钥密码协处理器的研究与设计[D]. 黎明. 华中科技大学. 2011

[3]. 高性能可扩展公钥密码协处理器研究与设计[J]. 黎明, 吴丹, 戴葵, 邹雪城. 电子学报. 2011

[4]. 异构多核网络安全处理器硬件优化技术研究[D]. 谢元斌. 西安电子科技大学. 2011

[5]. 专用指令集安全处理器设计与实现[D]. 陆荣华. 复旦大学. 2008

[6]. 统一架构的ECC与RSA密码处理器的设计[D]. 刘兵. 天津大学. 2012

[7]. 可编程密码处理器关键技术研究与实现[D]. 赵学秘. 国防科学技术大学. 2006

[8]. 实时数字安全处理器研究与设计[D]. 马士超. 中国科学院研究生院（计算技术研究所）. 2006

[9]. ECC硬件算法研究及协处理器实现[D]. 李青. 东南大学. 2006

[10]. 椭圆曲线密码处理器关键技术研究[D]. 李博. 解放军信息工程大学. 2015

标签：计算机硬件技术论文; 协处理器论文; 椭圆曲线论文; 公钥密码体制论文; 运算速度论文; 高性能计算论文; 关系运算论文; 信息安全论文; 处理器技术论文; 密码算法论文; rsa算法论文;

高性能公钥密码协处理器的设计与实现

参考文献：

猜你喜欢