暫無商品咨詢信息 [發表商品咨詢]

DeepSeek-R1大模型是一款具備強大自然語言處理能力的人工智能模型,能夠高效完成文本生成、翻譯、問答、代碼編寫等多種任務,適合企業級應用和開發者集成。本書系統性地解析了大模型的核心原理、關鍵技術以及DeepSeek的多個實際應用場景。
全書共分為12章,首先介紹大模型的基礎知識與發展歷程,從神經網絡的起源到大規模預訓練模型的演化,再到Transformer、BERT與GPT等模型架構的深入剖析,幫助讀者理解大模型的技術基石。其次詳細解析了DeepSeek-R1及其Zero版本在強化學習與模型架構上的核心技術,包括混合專家模型、動態學習率調度、分布式訓練及高效推理優化策略等。再次聚焦于模型訓練與開發實踐,介紹API調用、上下文拼接、多輪對話管理、模型微調、知識蒸餾等關鍵技術,并結合DeepSeek實際案例展示其在數學推理、代碼生成等領域的應用。最后著重探討了大模型在商業化落地場景中的高級應用,如FIM補全、多輪對話、業務代碼自動化生成以及基于云部署的智能推薦搜索系統等。
本書內容兼具理論深度與實戰價值,同時附贈相關案例代碼、各章思考題及教學視頻等學習資源,適合大模型開發者、AI研究人員、工程師、數據科學家、企業技術決策者以及對人工智能技術感興趣的高校師生閱讀。無論是希望深入理解大模型技術的專業人士,還是尋求在實際業務中應用AI技術的從業者,都能從中獲得有價值的信息和實踐指導。
前言
第1部分 大模型基礎與核心技術
第1章 大模型簡介
1.1大模型基本概念與發展歷程
1.1.1從神經網絡到大規模預訓練模型
1.1.2深度學習時代:模型規模與數據驅動
1.1.3以DeepSeek為例:大模型應用場景擴展及其商業化進程
1.2大模型關鍵技術概覽
1.2.1 Transformer架構
1.2.2自監督學習與預訓練技術
1.2.3分布式計算與大模型并行化
1.3大模型訓練、微調與推理
1.3.1數據預處理與模型初始化
1.3.2微調技術:全參數微調與參數高效微調
1.3.3高效推理優化:量化、剪枝與知識蒸餾
1.4對話大模型V3與推理大模型R1
1.4.1自然語言理解與自然語言生成模型的異同
……
| 基本信息 | |
|---|---|
| 出版社 | 機械工業出版社 |
| ISBN | 9787111779223 |
| 條碼 | 9787111779223 |
| 編者 | 丁小晶,崔遠 編 |
| 譯者 | -- |
| 出版年月 | 2025-04-01 00:00:00.0 |
| 開本 | 16開 |
| 裝幀 | 平裝 |
| 頁數 | 324 |
| 字數 | 449000 |
| 版次 | 1 |
| 印次 | 1 |
| 紙張 | 一般膠版紙 |
暫無商品評論信息 [發表商品評論]
暫無商品咨詢信息 [發表商品咨詢]