關注DeepSeek, Part 2: 思考方法
上一篇的內容光是點評與DeepSeek比較相關的9個關鍵詞,就寫了一長篇,如果就每個關鍵詞更詳細探討的話,那就變成了長篇報告,甚至可以集結成書。
不過我沒想寫這種報告或出書,因為現在越來越多人用AI產出這類型的報告,讀者也不見得會細辯其正確性,能欣賞的人就更少了,所以越來越不值錢。我這種老式的作風,一字一字用心寫,主要為的是整理思想,以及給學生們做參考,不計較時間成本,只寫我想寫的就好 
我想對學生們說,想要完整明暸DeepSeek衝擊的始末,乃至於AI/大型語言模型的現況與未來,可以多花點時間分別把9個關鍵詞的意涵理解清楚。在摸索到一定的程度之前,不必過度在意網路上的各類訊息,除非你要炒股票、移民、找工作、打嘴砲。除了最後一項打嘴炮之外,還是確定訊息來源值得信賴才好。
如果9個關鍵詞的意涵都清楚了,有了足夠的基礎之後,不妨嘗試進階的思考以及實作研究。這裡先來談談進階的思考,之後有空再來談如何透過實作來深化技能和獲得實戰經驗。學習、思考和實作互相搭配來解決複雜問題,是我希望實驗室的每位研究生都具備的能力。
進階思考的一種形式,是去探索相關學術論文,這是各位讀研究所應該要學會的能力,主要目的是深化思考和判斷力。這個年代的學術論文良莠不齊,研讀的時候要小心。DeepSeek的虛實,光是膚淺地看論文是說不準的。很多實務型的論文,並沒有把關鍵的細節寫出來,即便說開源,也不見得開放其中進階的部分(例如軟硬整合/效能優化),所以即便只是要重複別人的作品和實驗,往往並非等閒之事,你要懂得補充人家沒給或是遮遮掩掩的部分。
除了精進個人能力之外,同學們最好也具備團隊合作的能力。DeepSeek是一個團隊,站在巨人的肩膀上做出來的。我們之前看過Meta公開Llama 3訓練技術的論文The Llama 3 Herd of Models,五百多位作者群合作的92頁的內容中,參考了非常多的論文,試問一個人看得完、做得出來嗎?
剛剛上傳到實驗室群組的DeepSeek相關論文列表,不僅有超過20篇的近期論文,每篇論文也附帶了開源的模型或程式碼。如果沒有足夠的研究人才組隊一起研究,那需要多少時間才追得上?在你慢吞吞追趕的時候,新的東西會不斷地出現,你只會越來越落後。
基本上,除非有足夠多的一流人才積極且密切的合作,才有機會追趕其他一流團隊的成果。事實上,這幾年研發LLM的大公司都積極徵聘一流的人才,很多學生也蜂擁進入AI領域,但其中最稀有的人種之一是懂得高階軟硬整合優化實務的研究型人才,因為要學到能出師並不容易。
各位剛進到一個新興領域的同學,一開始不可能什麼都懂,最好先建立某些技能與專長,讓其他人覺得你夠格,會想邀你入隊,爭取到與真正高手合作的機會。我常說台大的學位,只是讓各位拿到入場卷,想待在舒適圈裡,還是想力爭上游,心態往往決定了技術能力和事業發展的高度。即便大環境有其局限性,但限制不住有心人。
其次,各位行有餘力的話,可以嘗試發展追求廣度。為了閱讀方便,我在重複一次上篇文章一開始提到的句子:
DeepSeek會讓這麼多人在年假中汲汲營營做功課,一言以蔽之,主要的還是因為「中國公司」在受到箝制的情況下,竟然只需使用「相對少量的GPU」,以「投機取巧的訓練方法」打造出比知名大模型具備「更強更便宜」的「推理能力」的「商用開源模型」,同時還造成「NVIDIA股票重挫」,連帶引發「美國該如何回應」以及「台灣怎麼辦呢」的熱烈討論。
重要議題當然不止這句話中方括號匡起來的9個關鍵詞,如果有漏網之魚,各位可以設法補起來;還可以把9個關鍵詞交錯編織,進行更複雜、更完整的思考。
例如任兩個關鍵詞的組合,例如「中國公司」x「相對少量的GPU」、「投機取巧的訓練方法」x「商用開源模型」、「NVIDIA股票重挫」x「更強更便宜」、「美國該如何回應」x「台灣怎麼辦呢」等等,甚至還可以思考三個、四個關鍵詞的組合,逐漸去看到多議題之間的關聯性和互動關係。
當然,這些組合很多,可以先探索一些重要的組合,或是將組合分類。例如,9個關鍵詞之中有4個是國家或公司,包括中國、美國、台灣、以及NVIDIA;其他5個則偏技術或策略,包括少量的GPU、訓練方法、推理能力、商用開源、更強更便宜。
我心血來潮,隨手畫了一張簡單的示意圖,給大家做參考。除了探究主要議題之間的關聯性,也可以把一些相關的議題加進去或者從主要議題分出來,例如圖中我有一些虛線匡起來的議題,也都可以跟其他議題產生關聯,做進一步的探索。
過程中,各位可能會發現,簡單用AI工具就可以做這些關聯性的探索。你可以試著問AI,「中國公司」和「GPU」有和關聯性,應該會發現AI會提供貌似專業的資訊,然而,你究竟對這些AI生成整理的資訊有多深入的理解呢?這些資訊真的正確無誤嗎?是否有預設的立場?該如何做進一步的解讀呢?
我希望各位先把單一議題搞清楚到一定的程度,否則如何能夠好好鑑別和運用那些別人或者AI寫出來的論述呢?寫作業繳報告、呼隆糊弄別人或許可以,但能否做出好東西、用於實戰呢?今天的生成式AI,在加入思維鏈強化推理能力之後,不僅更能提供有用資訊,也更會唬人了,真的是把兩面刃。我希望各位不要被AI騙,也不要騙別人,更不要騙自己。
話說各位看今天媒體充斥著二手傳播和農場文,已夾雜著不少誇大不實的資訊,未來越來越便宜的AI服務勢必被大眾用於產生大量貌似專業、似是而非、以假亂真的文字和影像,如果這些大量生產的東西成為訓練資料集、投閱聽者所好以追求點閱率的作法成為主流價值,輾轉被用於訓練新的模型以及檢索資料,那問題就大了。
當然我希望AI不要朝負面發展,因此我建議各位在關注AI議題和使用AI工具的同時,也要好好磨練自己的思辨能力,建立某些專長,才能在未來AI/資訊氾濫的年代仍然保有屬於自己的天地與靈魂。
(全文由本人撰寫,完全未使用AI)
All reactions:
18 comments
323 shares
Like
Comment
Newest
Rex Chang
路過,吾少也賤故多能鄙事,學士念的是資管,後來念法碩乙/鉅資
分析方法最保守的基本上還是使用傳統的企管分析工具:五力分析那些,練到熟練,不會很優秀突出,但是至少不會搞錯什麼。
再有能力就是MBA的策略矩陣跟加權評分法,更厲害一點綜合以上的全部方法再結合麥肯錫顧問公司使用的那一套分析方式與管理工具,很短的時間內就可以將一個複雜的問題用有條理的方法拆解、分析後再重新組合起來。
2' xlink:href='%23b'/%3e%3cuse fill='black' filter='url(%23c)' xlink:href='%23b'/%3e%3cpath fill='white' d='M12.162 7.338c.176.123.338.245.338.674 0 .43-.229.604-.474.725a.73.73 0 01.089.546c-.077.344-.392.611-.672.69.121.194.159.385.015.62-.185.295-.346.407-1.058.407H7.5c-.988 0-1.5-.546-1.5-1V7.665c0-1.23 1.467-2.275 1.467-3.13L7.361 3.47c-.005-.065.008-.224.058-.27.08-.079.301-.2.635-.2.218 0 .363.041.534.123.581.277.732.978.732 1.542 0 .271-.414 1.083-.47 1.364 0 0 .867-.192 1.879-.199 1.061-.006 1.749.19 1.749.842 0 .261-.219.523-.316.666zM3.6 7h.8a.6.6 0 01.6.6v3.8a.6.6 0 01-.6.6h-.8a.6.6 0 01-.6-.6V7.6a.6.6 0 01.6-.6z'/%3e%3c/g%3e%3c/svg%3e)
Lavie Fu
Rex Chang 補充:2024年5月,阿聯酋政府機構先進技術研究委員會推出最新版本的 Falcon 生成式 AI 模型,並分拆了自己的公司 AI 71。 Equinix 是一家大型資料中心開發商,剛剛在 G42 的阿聯酋後院開設了一個大型伺服器場。阿聯酋的更大鄰國沙烏地阿拉伯正在建造中東最強大的超級計算機,並與美國科技巨頭 IBM 合作開發阿拉伯語 AI 。
The Economist: G42, an Emirati AI hopeful, has big plans
邱慧
謝謝老師,借分享
Chingkuo Tu
謝謝老師。
Daniel Hong
前輩 借分享
Casper Wu
謝謝老師分享知識。
Ricky Huang
關係者的圖怪怪的!又用廠商又用國家作關聯?
Ling-Sen Wu
Thanks Sir
Lee Wins
謝謝老師,真是AI明燈
2' xlink:href='%23b'/%3e%3cuse fill='black' filter='url(%23c)' xlink:href='%23b'/%3e%3cpath fill='white' d='M12.162 7.338c.176.123.338.245.338.674 0 .43-.229.604-.474.725a.73.73 0 01.089.546c-.077.344-.392.611-.672.69.121.194.159.385.015.62-.185.295-.346.407-1.058.407H7.5c-.988 0-1.5-.546-1.5-1V7.665c0-1.23 1.467-2.275 1.467-3.13L7.361 3.47c-.005-.065.008-.224.058-.27.08-.079.301-.2.635-.2.218 0 .363.041.534.123.581.277.732.978.732 1.542 0 .271-.414 1.083-.47 1.364 0 0 .867-.192 1.879-.199 1.061-.006 1.749.19 1.749.842 0 .261-.219.523-.316.666zM3.6 7h.8a.6.6 0 01.6.6v3.8a.6.6 0 01-.6.6h-.8a.6.6 0 01-.6-.6V7.6a.6.6 0 01.6-.6z'/%3e%3c/g%3e%3c/svg%3e)
David Cheng
程彥翔 上課了