大猴子: AI 訓練寫程式碼

2025/02/18

AI 訓練寫程式碼（Code Generation）的模型通常使用大量的程式碼數據，這些數據可能來自開源程式碼庫、技術文件、論壇等來源。具體來說，這些訓練資料可分為以下幾類：

這是 AI 訓練模型最重要的來源，包含：

GitHub
- 由於 GitHub 是全球最大的程式碼託管平台，許多 AI 模型（如 GitHub Copilot、GPT Code Interpreter）都使用 GitHub 上的 開源程式碼（特別是許可證允許的部分）進行訓練。
- 但 GitHub 私有倉庫的程式碼並未被納入訓練，因為涉及隱私與版權問題。
- 開源授權影響：如 MIT、Apache、BSD 等許可證允許再利用，而 GPL 可能有法律限制。
Stack Overflow / 技術論壇
- 包含大量的問答內容，可幫助 AI 理解「如何解決特定問題」的最佳方式。
- 許多 AI 也參考 Stack Overflow 的高投票回答來學習常見程式問題的最佳解法。
其他開源代碼託管平台
- Bitbucket、GitLab 也可能提供部分開源專案作為訓練資料。
- Google Code Archive（已關閉）等歷史開源資源。

官方技術文檔（如 Python、JavaScript、Java、C++ 等語言的官方文件）
- AI 會學習各種語言的 標準函式庫 (Standard Library)、語法規則及 API 使用方法。
- 例如，OpenAI 的模型會參考 Python 官方文檔 (docs.python.org)，以提供較準確的 Python API 使用方式。
開源專案的 README、Wiki、Comments
- 開發者寫的程式碼註解、README.md、Wiki 也是重要的學習素材，有助於 AI 理解程式碼的用途與意圖。
API 參考手冊
- 訓練 AI 讓它能更準確地提供 API 調用方式，例如：
  - TensorFlow / PyTorch（機器學習框架）
  - Flask / Django（Web 框架）
  - Pandas / NumPy（數據分析庫）
  - AWS / Google Cloud / Azure SDKs（雲端服務）

LeetCode / Codeforces / AtCoder / HackerRank
- AI 模型透過學習這些競賽平台上的解法，能夠更有效地產生演算法和資料結構相關的程式碼。
- 這些平台的題目通常帶有測試案例，能幫助 AI 了解不同輸入輸出格式及最佳解法。

經典程式設計書籍
- 如《The C Programming Language》、《Python Cookbook》、《Effective Java》等，這些書籍提供了高質量的範例與最佳實踐。
AI 研究論文與技術白皮書
- 許多 AI 也參考 ML / DL 相關論文，例如：
  - 《Attention Is All You Need》（Transformer 相關）
  - 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
  - 各種 GitHub 上的 AI 代碼範例

GitHub Issues & Pull Requests
- AI 會學習開發者如何修正 Bug（從 Pull Request 的變更記錄來學習）。
- 這讓 AI 具備更強的「除錯」與「程式碼優化」能力。
Linting / Style Guides
- AI 會學習程式風格，如 PEP8（Python）、Google C++ Style Guide，使它生成的程式碼符合業界標準。

AI 訓練程式碼的潛在挑戰

法律與版權問題
- 許多程式碼受開源授權保護，例如 GPL 需要開放源碼，這讓 AI 訓練時需要避開不適用的代碼。
- 2023 年 GitHub Copilot 被起訴，因為它可能從 GPL 代碼生成類似程式碼。
程式碼品質問題
- AI 可能學習到低品質或過時的代碼，影響生成結果。
- 許多 Stack Overflow 或 GitHub 的程式碼可能不是最佳實踐。
安全漏洞
- 若 AI 訓練時學習了含漏洞的代碼（如 SQL Injection、XSS 漏洞），可能會無意間生成不安全的程式碼。
難以學習新技術
- 若某個新技術或框架剛推出，AI 可能尚未訓練足夠的數據來支援該技術。

目前 AI 訓練寫程式碼的技術仍在發展中，未來可能會更強調 程式碼品質評估、安全性強化、以及 AI 本身的代碼自學習，以提升其實用性與可靠性。