您當(dāng)前位置:保定理工學(xué)院 >> 信息技術(shù)中心 >> 行業(yè)動(dòng)態(tài) >> 瀏覽文章 |
高校DeepSeek本地化部署及服務(wù)升級 【行業(yè)動(dòng)態(tài)】 加入時(shí)間:2025年05月10日 信息來源:本站原創(chuàng) 作者:xjzx 訪問量: |
DeepSeek正在成為高校推動(dòng)教育創(chuàng)新、提升科研水平和培養(yǎng)創(chuàng)新型人才的重要工具。眾多高校紛紛積極探索如何將DeepSeek融入教學(xué)、科研和管理等核心業(yè)務(wù),以實(shí)現(xiàn)教育模式的升級和教育質(zhì)量的飛躍。2月19日,天津大學(xué)正式推出私有部署的DeepSeek-R1 671B大模型,為全校師生及科研團(tuán)隊(duì)提供了更為優(yōu)質(zhì)的服務(wù),成為DeepSeek賦能高等教育的典型案例之一。
服務(wù)平臺部署方案
本次部署旨在面向全校師生提供基于DeepSeek-R1 671B非量化版本的大模型服務(wù)。該服務(wù)不僅支持基礎(chǔ)的自然語言處理任務(wù),還具備多種高級功能,包括但不限于聯(lián)網(wǎng)搜索、公式生成、代碼生成等,以滿足不同學(xué)科背景用戶的需求。
為確保平臺能夠高效穩(wěn)定地運(yùn)行,系統(tǒng)設(shè)計(jì)了較高的并發(fā)處理能力與生成速度。具體而言,建設(shè)目標(biāo)為支持同時(shí)請求數(shù)不低于100人的推理平臺,且保證每秒生成的Token數(shù)量不低于600個(gè)。這一配置旨在滿足大規(guī)模用戶訪問需求,同時(shí)保障實(shí)時(shí)性和用戶體驗(yàn)。
平臺架構(gòu)設(shè)計(jì)
如圖1所示,系統(tǒng)自底向上可以分為基礎(chǔ)設(shè)施、推理平臺、大模型服務(wù)三個(gè)部分。
圖1 系統(tǒng)整體架構(gòu)
基礎(chǔ)設(shè)施層提供了平臺運(yùn)行所需的底層支持,系統(tǒng)依托于天津大學(xué)計(jì)算平臺,平臺提供了高性能的GPU計(jì)算資源,使用Kubernetes調(diào)度系統(tǒng)進(jìn)行資源分配,從而提供開箱即用的高性能計(jì)算環(huán)境。這些基礎(chǔ)設(shè)施確保了平臺的穩(wěn)定性和可擴(kuò)展性,能夠處理大量的并發(fā)請求和復(fù)雜的大模型推理任務(wù)。
推理平臺建立在基礎(chǔ)設(shè)施提供的算力基礎(chǔ)上,是AI對話平臺的核心。平臺使用vLLM推理引擎提供多組大模型服務(wù)。推理接口網(wǎng)關(guān)作為推理平臺與外部系統(tǒng)交互的入口,負(fù)責(zé)鑒權(quán)、接口狀態(tài)監(jiān)控、提示詞優(yōu)化和負(fù)載均衡等任務(wù),確保推理服務(wù)的穩(wěn)定性和效率。
AI模型知識庫負(fù)責(zé)管理和調(diào)度AI模型的推理任務(wù),包括知識庫、聯(lián)網(wǎng)搜索接口、任務(wù)編排和模型分配等功能。
大模型服務(wù)是用戶與系統(tǒng)交互的直接界面,在對話方面,通過自主開發(fā)的系統(tǒng)界面提供Markdown和Mermaid顯示、公式顯示、流程圖顯示、代碼語法著色等功能,使得對話更加直觀和規(guī)范。此外,該平臺還提供了接口管理,包括登錄登出、權(quán)限控制、上下文管理和會話管理和聯(lián)網(wǎng)搜索等功能,確保了用戶交互的安全性和連貫性。
推理服務(wù)部署
平臺構(gòu)建了一個(gè)強(qiáng)大的計(jì)算集群,由15臺服務(wù)器組成,每臺服務(wù)器配備8塊顯存80GB的高性能顯卡,實(shí)現(xiàn)卡間高速互聯(lián),提供卓越的計(jì)算性能與數(shù)據(jù)傳輸速率。為確保服務(wù)器之間的高效通信,集群采用了200Gb高速網(wǎng)絡(luò)鏈接,極大地提升分布式計(jì)算任務(wù)中的數(shù)據(jù)交換效率,特別是在需要大量數(shù)據(jù)交互的深度學(xué)習(xí)訓(xùn)練場景下表現(xiàn)尤為突出。
軟件環(huán)境方面,所有機(jī)器均安裝了Ubuntu操作系統(tǒng),能夠兼容各類科學(xué)計(jì)算軟件和工具。此外,為更好地管理和調(diào)度如此龐大的計(jì)算資源,平臺集成了天津大學(xué)計(jì)算平臺的服務(wù),不僅能夠提供強(qiáng)大的算力支持,還通過其內(nèi)置的容器部署功能實(shí)現(xiàn)了計(jì)算環(huán)境的快速配置與切換,大大簡化科研人員的操作流程,提高了資源利用效率。
在系統(tǒng)搭建工作完成后,團(tuán)隊(duì)使用了vLLM包含的Benchmark工具進(jìn)行了系統(tǒng)吞吐量測試。測試使用了ShareGPT_V3_unfiltered_cleaned_split數(shù)據(jù)集,從數(shù)據(jù)集中隨機(jī)取出30條文本內(nèi)容,同時(shí)發(fā)送給一組三節(jié)點(diǎn)的推理模塊。經(jīng)過多次測試,在并發(fā)數(shù)為30的情況下,一組三節(jié)點(diǎn)的集群能夠處理的總吞吐量在280token/s左右,每秒輸出詞元數(shù)為140個(gè)左右。測試結(jié)果表明,一組服務(wù)器可以支持30人同時(shí)流暢使用DeepSeek 671B模型進(jìn)行單輪對話。對于多輪對話,由于上下文長度顯著增加,性能可能略有下降。
大模型應(yīng)用中臺
大模型應(yīng)用中臺能夠整合不同底層大模型的接口差異,實(shí)現(xiàn)各種內(nèi)外部大模型的快速接入,并根據(jù)業(yè)務(wù)場景的數(shù)據(jù)安全要求選擇使用外部模型或私有化模型。此外,大模型應(yīng)用中臺還具備智能知識庫分析能力,通過結(jié)合向量數(shù)據(jù)庫支持文本向量分段、大模型問答拆分、精準(zhǔn)導(dǎo)入等多種知識錄入方式,提高答案的召回率和準(zhǔn)確性,適應(yīng)多種場景需求如問答、閱讀、生成等。同時(shí),應(yīng)用中臺提供任務(wù)可視化編排功能,允許通過圖形化界面輕松實(shí)現(xiàn)包含知識庫搜索、AI對話、關(guān)鍵詞提取、問題分類、API調(diào)用等模塊的復(fù)雜工作流,擴(kuò)展構(gòu)建AI智能體的能力。為了實(shí)現(xiàn)多渠道快速接入,平臺支持通過對話窗口、API等方式與各業(yè)務(wù)系統(tǒng)快速集成,為用戶提供全面的知識解答。
圖2是為學(xué)校設(shè)計(jì)的大模型應(yīng)用中臺流程圖。用戶在默認(rèn)情況下可以直接調(diào)用DeepSeek,使用大模型自身的能力回答問題。如果用戶選擇使用智能模式,系統(tǒng)將調(diào)用中臺的編排能力分析用戶需求,進(jìn)而使用不同工具進(jìn)行更細(xì)致的加工處理。在智能模式中,系統(tǒng)使用DeepSeek 7B小模型,分析用戶需求,根據(jù)用戶問題將需求分為“聯(lián)網(wǎng)搜索”“代碼執(zhí)行”和“直接使用大模型能力對話”三種。針對聯(lián)網(wǎng)搜索,直接調(diào)用搜索接口,將接口返回值進(jìn)行格式化處理后傳入大模型進(jìn)行分析和總結(jié)。對于代碼執(zhí)行需求,系統(tǒng)將用戶代碼抽取并傳送至獨(dú)立的沙箱進(jìn)行代碼調(diào)用,計(jì)算完成后返回結(jié)果給大模型,進(jìn)而回復(fù)用戶。
圖2 大模型應(yīng)用中臺流程設(shè)計(jì)
大模型服務(wù)構(gòu)建
系統(tǒng)對接了天津大學(xué)統(tǒng)一身份認(rèn)證平臺,校內(nèi)用戶無需注冊即可直接使用大模型服務(wù),使用JWT實(shí)現(xiàn)了權(quán)限控制和登入登出功能。系統(tǒng)基于CAS協(xié)議與天津大學(xué)統(tǒng)一身份認(rèn)證平臺進(jìn)行交互,獲取用戶身份、學(xué)院等背景信息,作為大模型提示詞輸入到模型中臺,為大模型回答問題提供必要的背景知識,幫助其更準(zhǔn)確地回答出用戶的問題,也使其回復(fù)的答案更加貼近用戶身份。
借助大模型中臺提供的推理和會話編排能力,后端使用Fast Api構(gòu)建了一套接口,提供會話保存、上下文管理等功能。在收到用戶請求后,中臺將自動(dòng)保存用戶請求和大模型返回值,并在下一輪對話中將前6輪對話的內(nèi)容填充至大模型的上下文,借助DeepSeek長上下文的特點(diǎn),提供更準(zhǔn)確的對話信息。用戶權(quán)限和歷史會話使用JSON格式保存在MongoDB中。
運(yùn)維分析及服務(wù)優(yōu)化升級
為提升平臺的整體運(yùn)行效率和服務(wù)質(zhì)量,學(xué)校從多個(gè)維度開展了系統(tǒng)性能優(yōu)化工作。通過負(fù)載均衡策略、斷開鏈接策略以及小模型過濾機(jī)制的綜合應(yīng)用,平臺在資源分配、穩(wěn)定性保障及計(jì)算成本控制等方面取得了顯著成效。
智能網(wǎng)關(guān)。為適應(yīng)多組大模型共同提供服務(wù),我校自主研發(fā)了一套智能網(wǎng)關(guān)系統(tǒng),負(fù)責(zé)LLM請求的負(fù)載分配及健康監(jiān)控。
其一,負(fù)載均衡策略。為提高系統(tǒng)的穩(wěn)定性和響應(yīng)速度,學(xué)校在智能網(wǎng)關(guān)層面引入了一種基于動(dòng)態(tài)負(fù)載評估的優(yōu)化策略。該策略通過實(shí)時(shí)收集各虛擬大語言模型(vLLM)節(jié)點(diǎn)的運(yùn)行狀態(tài)數(shù)據(jù),包括但不限于硬件負(fù)載、當(dāng)前用戶請求數(shù)量、正在處理的用戶請求數(shù)量以及正在等待的用戶請求隊(duì)列長度,對各節(jié)點(diǎn)的實(shí)際負(fù)載進(jìn)行全面評估。當(dāng)新的用戶請求到達(dá)時(shí),智能網(wǎng)關(guān)會根據(jù)已掌握的各項(xiàng)負(fù)載指標(biāo)對所有節(jié)點(diǎn)進(jìn)行排序,并選取負(fù)載最低的兩個(gè)節(jié)點(diǎn),將用戶隨機(jī)分配到其中一個(gè)節(jié)點(diǎn)上進(jìn)行處理。這一策略不僅能夠有效分散用戶請求壓力,避免單個(gè)節(jié)點(diǎn)過載,還能顯著提升系統(tǒng)的整體吞吐能力和資源利用率。
此外,為了進(jìn)一步優(yōu)化負(fù)載均衡效果,系統(tǒng)還引入了歷史負(fù)載數(shù)據(jù)分析機(jī)制。通過對過去一段時(shí)間內(nèi)各節(jié)點(diǎn)的負(fù)載變化趨勢進(jìn)行建模和預(yù)測,智能網(wǎng)關(guān)能夠在一定程度上提前調(diào)整資源分配策略,從而更好地應(yīng)對突發(fā)流量高峰或局部負(fù)載不均的情況。
其二,斷開鏈接策略。為確保系統(tǒng)的健康運(yùn)行并防止個(gè)別異常會話對整個(gè)節(jié)點(diǎn)造成負(fù)面影響,天津大學(xué)在智能網(wǎng)關(guān)中設(shè)計(jì)并實(shí)施了一種斷開鏈接策略。具體而言,智能網(wǎng)關(guān)會持續(xù)監(jiān)控各節(jié)點(diǎn)的token生成情況。如果檢測到某個(gè)用戶會話長時(shí)間未能生成有效的token(例如超過預(yù)設(shè)的時(shí)間閾值),系統(tǒng)將主動(dòng)斷開該會話連接,并釋放相關(guān)資源。這種機(jī)制可以有效避免因單個(gè)會話的異常行為(如死循環(huán)、超時(shí)或其他不可控因素)導(dǎo)致的資源浪費(fèi)或節(jié)點(diǎn)阻塞問題,從而保障其他用戶的正常訪問體驗(yàn)。
同時(shí),為了減少對用戶體驗(yàn)的影響,系統(tǒng)會在斷開會話前向用戶發(fā)送提示信息,說明原因并建議重新提交請求。此外,針對頻繁觸發(fā)斷開策略的用戶或會話類型,系統(tǒng)還會自動(dòng)記錄相關(guān)日志,以便后續(xù)分析其潛在問題并優(yōu)化處理邏輯。
輸入護(hù)欄。為降低大模型推理過程中的計(jì)算成本并提升系統(tǒng)效率,引入一種基于小模型的用戶問題預(yù)處理機(jī)制。在調(diào)用DeepSeek-R1 671B大模型之前,所有用戶輸入的問題首先會被傳遞給參數(shù)規(guī)模較小的DeepSeek-R1 7B模型進(jìn)行初步判斷和分類。DeepSeek-R1 7B模型通過對問題內(nèi)容的快速分析,能夠識別出無效問題(如無意義的字符輸入或重復(fù)提問)和不合規(guī)問題(如涉及敏感話題或違反學(xué)校政策的內(nèi)容)。對于這些不符合要求的問題,系統(tǒng)將直接跳過大模型推理階段,并向用戶返回固定格式的提示信息,從而節(jié)省大量計(jì)算資源。
此外,在聯(lián)網(wǎng)搜索場景中,DeepSeek-R1 7B模型還承擔(dān)了判斷用戶問題是否需要外部網(wǎng)絡(luò)支持的任務(wù)。如果模型確定用戶問題可以通過本地知識庫或大模型自身能力解決,則直接進(jìn)入下一階段的處理流程;反之,若問題需要依賴外部網(wǎng)絡(luò)資源(如實(shí)時(shí)新聞、學(xué)術(shù)數(shù)據(jù)庫等),系統(tǒng)才會啟動(dòng)聯(lián)網(wǎng)搜索模塊。這種分層處理機(jī)制不僅提高了系統(tǒng)的響應(yīng)速度,還顯著降低了對外部網(wǎng)絡(luò)資源的依賴性,增強(qiáng)了系統(tǒng)的魯棒性和可擴(kuò)展性。
輸出約束與優(yōu)化。通過明確規(guī)定大模型在回答時(shí)需遵循的規(guī)則和格式要求,可以有效提升回答的質(zhì)量和可用性。學(xué)校使用提示詞優(yōu)化輸出內(nèi)容,主要設(shè)計(jì)包括規(guī)則約束和格式優(yōu)化兩方面。
在規(guī)則約束方面,首先明確AI的身份和法律遵循要求,能確保其回答符合當(dāng)?shù)胤煞ㄒ?guī),特別是數(shù)據(jù)隱私等敏感問題,避免出現(xiàn)法律風(fēng)險(xiǎn)。確認(rèn)AI處理中英文問題的能力,同時(shí)坦誠知識截止日期后的信息局限性,能讓用戶對其能力范圍有清晰認(rèn)識,合理期待回答的準(zhǔn)確性。要求提供全面且邏輯清晰的回答,并采用格式化輸出,可使信息呈現(xiàn)更有條理、易讀,面對模糊問題坦誠不確定性,體現(xiàn)誠實(shí)和專業(yè)。拒絕涉及非法、暴力、不適當(dāng)內(nèi)容的請求,維護(hù)道德和法律底線、保障用戶安全及隱私。同時(shí),將大模型服務(wù)主要應(yīng)用于高等教育行業(yè)并確保內(nèi)容嚴(yán)謹(jǐn)性,能使其在專業(yè)領(lǐng)域發(fā)揮更大價(jià)值。
在輸出格式優(yōu)化方面,遵循Markdown語法規(guī)則等格式要求,能讓回答在系統(tǒng)中正確解析和展示,如數(shù)學(xué)公式準(zhǔn)確呈現(xiàn)、引用規(guī)范、內(nèi)部推理清晰等,提升用戶體驗(yàn)和回答的專業(yè)性。
聯(lián)網(wǎng)搜索。平臺集成了聯(lián)網(wǎng)搜索功能,用戶可使用該功能搜索互聯(lián)網(wǎng)上的內(nèi)容,并使用大模型進(jìn)行總結(jié)。聯(lián)網(wǎng)搜索功能需要配置網(wǎng)絡(luò)搜索引擎接口。學(xué)校研發(fā)了搜索引擎聚合接口服務(wù),將部分公開的搜索結(jié)果和校內(nèi)的內(nèi)容平臺搜索引擎聚合,提供標(biāo)準(zhǔn)的搜索結(jié)果。大模型總結(jié)搜索內(nèi)容后,需要在前端將引用內(nèi)容展示給用戶,同樣需要相關(guān)的提示詞。
本次上線DeepSeek大模型服務(wù),是天津大學(xué)邁向智能化教育的重要一步,但這也僅僅是一個(gè)起點(diǎn)。未來,學(xué)校將致力于將大模型服務(wù)與學(xué)校的教學(xué)、科研、管理等核心業(yè)務(wù)深度融合,打造更加智能、高效、個(gè)性化的教育生態(tài)系統(tǒng)。 基金項(xiàng)目:本文系2024年天津大學(xué)創(chuàng)新人才培養(yǎng)項(xiàng)目——基于大模型的研究生課程教學(xué)改革探索與實(shí)踐(YCX2024034)階段性研究成果。 來源:《中國教育網(wǎng)絡(luò)》2025年2-3合刊 作者:趙越1、趙滿坤2、張文彬1、于瑞國1(作者單位1為天津大學(xué)信息與網(wǎng)絡(luò)中心;2為天津大學(xué)智能與計(jì)算學(xué)部) 責(zé)編:陳榮 |