无码人妻丰满熟妇奶水区码,成年高潮网址,观看免费干B,欧美日韩深喉

<bdo id="xma0j"><span id="xma0j"><del id="xma0j"></del></span></bdo>

<pre id="xma0j"><label id="xma0j"><th id="xma0j"></th></label></pre>

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

投稿用戶 ? 2024年7月9日上午8:29 ? 科研百科 ? 閱讀 34

阿里云機器學習平臺PAI與華東師范大學高明教授團隊合作在SIGIR2022上發(fā)表了結(jié)構(gòu)感知的稀疏注意力Transformer模型SASA，這是面向長代碼序列的Transformer模型優(yōu)化方法，致力于提升長代碼場景下的效果和性能。由于self-attention模塊的復雜度隨序列長度呈次方增長，多數(shù)編程預訓練語言模型（Programming-based Pretrained Language Models, PPLM）采用序列截斷的方式處理代碼序列。SASA方法將self-attention的計算稀疏化，同時結(jié)合了代碼的結(jié)構(gòu)特性，從而提升了長序列任務(wù)的性能，也降低了內(nèi)存和計算復雜度。

論文：Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, and Aoying Zhou. Understanding Long Programming Languages with Structure-Aware sparse Attention. SIGIR 2022

模型框架

下圖展示了SASA的整體框架：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

其中，SASA主要包含兩個階段：預處理階段和Sparse Transformer訓練階段。在預處理階段得到兩個token之間的交互矩陣，一個是top-k frequency矩陣，一個是AST pattern矩陣。Top-k frequency矩陣是利用代碼預訓練語言模型在CodeSearchNet語料上學習token之間的attention交互頻率，AST pattern矩陣是解析代碼的抽象語法樹（Abstract Syntax Tree，AST ），根據(jù)語法樹的連接關(guān)系得到token之間的交互信息。Sparse Transformer訓練階段以Transformer Encoder作為基礎(chǔ)框架，將full self-attention替換為structure-aware sparse self-attention，在符合特定模式的token pair之間進行attention計算，從而降低計算復雜度。

SASA稀疏注意力一共包括如下四個模塊：

Sliding window attention：僅在滑動窗口內(nèi)的token之間計算self-attention，保留局部上下文的特征，計算復雜度為，為序列長度，是滑動窗口大小。
Global attention：設(shè)置一定的global token，這些token將與序列中所有token進行attention計算，從而獲取序列的全局信息，計算復雜度為，為global token個數(shù)。
Top-k sparse attention：Transformer模型中的attention交互是稀疏且長尾的，對于每個token，僅與其attention交互最高的top-k個token計算attention，復雜度為。
AST-aware structure attention：代碼不同于自然語言序列，有更強的結(jié)構(gòu)特性，通過將代碼解析成抽象語法樹（AST），然后根據(jù)語法樹中的連接關(guān)系確定attention計算的范圍。

為了適應現(xiàn)代硬件的并行計算特性，我們將序列劃分為若干block，而非以token為單位進行計算，每個query block與

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個滑動窗口blocks和

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個global blocks以及

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個top-k和AST blocks計算attention，總體的計算復雜度為

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

，

b為block size。

每個sparse attention pattern 對應一個attention矩陣，以sliding window attention為例，其attention矩陣的計算為：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

ASA偽代碼：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

實驗結(jié)果

我們采用CodeXGLUE[1]提供的四個任務(wù)數(shù)據(jù)集進行評測，分別為code clone detection，defect detection，code search，code summarization。我們提取其中的序列長度大于512的數(shù)據(jù)組成長序列數(shù)據(jù)集，實驗結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

從實驗結(jié)果可以看出，SASA在三個數(shù)據(jù)集上的性能明顯超過所有Baseline。其中Roberta-base[2]，CodeBERT[3]，GraphCodeBERT[4]是采用截斷的方式處理長序列，這將損失一部分的上下文信息。Longformer[5]和BigBird[6]是在自然語言處理中用于處理長序列的方法，但未考慮代碼的結(jié)構(gòu)特性，直接遷移到代碼任務(wù)上效果不佳。

為了驗證top-k sparse attention和AST-aware sparse attention模塊的效果，我們在BigCloneBench和Defect Detection數(shù)據(jù)集上做了消融實驗，結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

sparse attention模塊不僅對于長代碼的任務(wù)性能有提升，還可以大幅減少顯存使用，在同樣的設(shè)備下，SASA可以設(shè)置更大的batch size，而full self-attention的模型則面臨out of memory的問題，具體顯存使用情況如下圖：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

SASA作為一個sparse attention的模塊，可以遷移到基于Transformer的其他預訓練模型上，用于處理長序列的自然語言處理任務(wù)，后續(xù)將集成到開源框架EasyNLP（https://github.com/alibaba/EasyNLP）中，貢獻給開源社區(qū)。

論文鏈接：https://arxiv.org/abs/2205.13730

參考文獻

[1] Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. NeurIPS Datasets and Benchmarks 2021

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)

[3] Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou. CodeBERT: A Pre-Trained Model for Programming and Natural Languages. EMNLP 2020

[4] Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou. GraphCodeBERT: Pre-training Code Representations with Data Flow. ICLR 2021

[5] Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. CoRR abs/2004.05150 (2020)

[6] Manzil Zaheer, Guru Guruganesh, Kumar Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Onta?ón, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed. Big Bird: Transformers for Longer Sequences. NeurIPS 2020

原文鏈接：http://click.aliyun.com/m/1000348767/

本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

0

關(guān)于彩票分析工具的便捷性對比

上一篇 2024年7月9日上午8:23

如何進行高效的代碼審查？（如何進行高效的代碼審查）

下一篇 2024年7月9日上午8:35

自主科研項目有哪些

自主科研項目有哪些隨著科技的不斷進步，人們對于自主科研項目的需求也越來越高。自主科研項目是指由學生、研究人員和其他人員組成的團隊，通過獨立設(shè)計和實施項目，獲得科學技術(shù)成果的科研項…

投稿用戶
科研百科 2025年4月24日
10
圖書館管理系統(tǒng)項目背景

圖書館管理系統(tǒng)項目背景圖書館是知識的傳播者和文化的的記錄者，在現(xiàn)代社會中扮演著重要的角色。然而，傳統(tǒng)的圖書館管理方式存在著許多問題，例如書籍的管理和借閱流程復雜，人員管理效率低下…

投稿用戶
科研百科 2025年1月16日
60
潮田鄉(xiāng)

潮田鄉(xiāng)潮田鄉(xiāng)僻(一)夏韓開王風黍離,盛于外,固胥尤尚。相與為師友,擇取君所好。入而老者,則視為拜之。究萬金競匹,送不歸家。并保國,經(jīng)綸巾,逸樂不倦。然后知松柏凋朱顏,竟燎蒼苔。未覺…

投稿用戶
科研百科 2024年11月25日
20
出納管理軟件怎么使用

出納管理軟件是一種能夠幫助出納人員管理公司財務(wù)的軟件，以下是使用出納管理軟件的一些基本步驟： 1. 安裝和配置：安裝出納管理軟件之前，需要先確定軟件的操作系統(tǒng)和瀏覽器，然后下載并安…

投稿用戶
科研百科 2024年10月1日
40
5本女主穿書搞科研興國年代文，學霸逆襲，回城知青vs集團大佬（女主穿越搞科研的年代文）

1《真千金在年代搞科研》作者:甜糕貓貓穿越女vs重生男，兩世深情，婚后日常，年代甜爽文一次飛船失事，梁好被迫進入小說里的世界。本想繼續(xù)未完成的科研事業(yè)，奈何她不是小說主角，沒…

投稿用戶
科研百科 2024年6月19日
1.6K0
國網(wǎng)東平縣供電公司深化黨建+物資，物資管理登高先行（供電公司物資管理工作思路）

通訊員孫建國近期，國網(wǎng)東平縣供電公司物資供應分中心黨支部認真落實公司“黨建 ”亮旗賦能工程決策部署，始終把政治建設(shè)擺在首位，把嚴管厚愛貫穿始終，把落地見效作為最終檢驗。工作中…

投稿用戶
科研百科 2024年6月26日
550
青島即墨開發(fā)“智慧商超”用小程序解決民生大問題（即墨智慧城具體位置）

齊魯網(wǎng)·閃電新聞2月8日訊 “親們，我昨天團購的草莓今天送貨上門了，個大味美，價格也實惠，現(xiàn)在出門不方便，還真是實用呢，這是小程序掃碼圖，大家快去看看吧！”青島市即墨區(qū)田橫島度假區(qū)…

投稿用戶
科研百科 2024年5月10日
450
威海信息系統(tǒng)項目管理

威海信息系統(tǒng)項目管理威海市位于中國山東半島的西北部，是一個歷史悠久、文化底蘊深厚的城市。威海市擁有豐富的自然資源和人文歷史，但同時也面臨著信息技術(shù)的快速發(fā)展和挑戰(zhàn)。在這個背景下，…

投稿用戶
科研百科 2025年1月16日
20
com.anwen.mongo.mapping.TypeReference依賴包

com.anwen.mongo.mapping.TypeReference依賴包 MongoDB 的 Mapping 是 MongoDB 數(shù)據(jù)庫中的一個重要組成部分，它定義了數(shù)據(jù)庫…

投稿用戶
科研百科 2024年11月28日
60
科研項目投入資金有多少

科研項目投入資金有多少科研項目資金投入是推動科技進步的重要力量。資金投入的大小不僅關(guān)系到項目的進度和質(zhì)量，也影響到國家的經(jīng)濟實力和科技水平。在當前全球經(jīng)濟形勢下，各國都非常注重科…

投稿用戶
科研百科 2025年4月15日
80

国产亚周中文字幕国| 国产激情一区二区三区四区| 国产一级片香蕉| 亚洲日韩在线欧美四虎观看| 肏屄AV下一页| 中文字幕热久无码| 一区二区三区机械有限公司| 美女被操死网站| 久久国产精品2019| 亚洲蜜臀一区| 天天爽天天捅天天干| 后入人妻在线| 欧美人妻三穴| 精品无码网站下载| 91男女视频网站| 国产97精品色欧洲| 在线看亚洲一区| 久久丝袜国产露脸国语懂色| 学生综合评价是重要的吗| 久久综合麻豆| 日本成人大片3区| av婷婷五月天操逼婷婷| 汤姆avtom亚洲一区二区| 精品久久久久中文字幕在线观看| 午夜AV图| 无码精品人妻一区| 亚洲夜夜性夜综合久久| 性少妇一区二区| 欧美日韩国产 porn| 大陆港台影院日韩AV小说| 久久久久国产精品熟女影院| 黑人留学生一区二区三区四区五区| 日韩精美黄片| 欧美精品阴道| 欧美理论视频在线观看免费| 美女被调教成网站| 青青草护士一区二区三区四区| 欧美日韩诚人在线视频观看| 国产性生活一区二区三区| 天天干天天艹天天操| 中文一二三区|

<bdo id="487ao"><span id="487ao"><del id="487ao"></del></span></bdo>

<track id="487ao"></track>