【人工智能】Mistral.AI CEO Arthur Mensch 访谈 | 强化学习不再重要 | 大模型的效率与规模 | 开源与商业化的平衡 | 全球化

17,221

307 0

Published 2024-03-26

上周，在Figma举办的一场活动中，硅谷知名个人创业者埃拉德·吉尔Elad Gil与Mistral创始人亚瑟·门施Arthur Mensch进行了一场访谈，从讲述Mistral的成立及产品的快速研发谈起，重点涉及大模型自我学习能力、大模型推理能力、大模型效率及规模、对AI监管的看法以及开源模型与商业模型的平衡等。今天大飞就来跟大家分享一下这次访谈的精彩内容。

原视频链接： • Fireside Chat w/ Mistral CEO, Arthur ...

#mistral #人工智能 #gpt4

All Comments (21)

@bestpartners 3 months ago

我认为亚瑟说的强化学习，不再重要，主要说的是基于人类反馈的强化学习 RLHF，因为模型能力越来越强，下个阶段应该是以自监督学习为主的 RLAIF，并不是否定整个强化学习。
@yunhanjia6690 1 month ago

宝藏频道
@janchangchou777 3 months ago

Part 1): 任何一條神經網路也是一個多變數廻歸分析，也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量（含時間變量）的廻歸分析（向量/ 矩陣/ 線性代數/ 機率/ 取様….）, 以便對一些事件做出精准智能的預測。所謂自我學習或機器學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的杈重或係數參數而已。而深度學習也只是處理巨量變數時，為了避免僅用單層機器學習進行巨量變數而需要解大矩陣導致對巨量平行計算的需求，進而變換設計成每層適量變數，建立多層次的機器學習修正。 40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡（行業內的迥歸模型）。在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機，否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式，利用所有大量閒置的𠆤人電腦來提供其微小的算力，進而整合這些龐大的所謂分散型算力，但受限那時網路的不發達，很難把規模擴大。近幾十年隨計算機能力不斷提升，目前市面AI 所謂大模型，主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正（所謂自我深度學習）而形成龐大的神經網絡。因此也不用太誇大眼下的AI , 這些早在40 年以前都已建構了理論基礎，而智能恊作早在各專業領域都已發展的非常完善，只是因過去算力不足只能在各自專業領域進行中小規模（變量數較少）的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力（AI)的例子，股票買賣決策也是智能恊作(AI/CIC)的典型。 ”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作，包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”，不但瓢竊了數理統計在AI 發展的絕對地位，實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作，更為恰當。何謂知識？由經驗總結後（抽象具體化），就形成知識（用數字分析的表達方式就是去建構知識模型）。形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展，就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式，將經驗知識化了。目前的AI 只是以數理統計為手段及方法論，以資訊及計算機工程為工具，進行數位型的經驗知識化的過程。人類有許多其他不同型態非常複雜的智慧，這種僅止於知識數位化的智慧，其實離人類多型態的智慧還有非常巨大的距離。另外，眼下AI 服務於大衆的大模型的各種數學理論及所謂的機器學習（參數修正）及深度學習（參數及變數的多層次增加及修正）。早在40 年前相應的數學理論都已完備（但落實到實際應用上，如何解1 億 by 1 億的聯立方程組( 行列式計算），這需要極其龐大的平行計算能力，在那時期是完全不可能的）。其實AI 最重要最關鍵的是各行各業各領域的專家組，而不是這些AI 編程的公司（他們只是依需求用已完善的數學統計理論加以電腦編程後，利用巨大算力去幫忙找出合適的模型並不斷予以完善）。只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中，那些因素才是其所涉領域的関鍵變數，那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型（核爆/飛機失事）………..等等。此外服務大衆的語言學也是極度複雜的一門學課，其可能的變量變因會高達幾千萬𠆤，再加上多層級過濾學習修正的模式，因此其涉及的變數算力就以億計，所以才稱做大模型。要取那些因素進行那一層分析，主要都是語言學家在主導。而這些眼下的AI 應用的公司，只是利用已發展完備的數學統計理論在不同領域專家組的指導下，去有效的進行數拈收集整理分析並進而建立一個特定領域的模型，作為該特定領域的電腦智能恊作工具。
@dayone1992 3 months ago

典型的听的风就是雨，Q*你不会不知道吧，well guess what，深度学习是其重要的一环，搞技术的请起码有自己的深度思考，不能光看表面牵着鼻子走。强化学习未来地位一定会更加重要。
@user-cp3oi9tq5q 3 months ago

《自主或非自主智能学习型器人，不可修改【理性作为判断筛选芯片指令】制程与控管》自主或非自主智能学习型机器人，所有不可预知自主学习意识或念头作为前，都必须经过不可修改，【理性作为芯片判断指令筛选】，才能做工！【机器人理性作为判断筛选芯片指令】除非机器人受到攻击，自保趋避;或被动反击发出触身电击阻却作为外： 1、不可主动做出伤害人类人身作为！ 2、可阻却任何暴力人类或生物或物品，攻击伤害人类作为阻挡保护！ 3、为保护人类生命，可破坏任何最少代价与自身能力可行阻挡物，带领带领或背负... 无法行动人类，趋避危险标的或地区！ 4、自卫攻击型机器人，【只能限定在固定防守范围，要塞或... 区域活动做工】;【且需求单位必先申请核准防卫范围】，配置不可修改，另外专业制成，【高阶理性作为判断筛选指令芯片！】 5、机器人做工控管芯片组合的黑盒子功能控管：机器人不同做工，【理性作为判断筛选芯片指令，所制成黑盒子】;军事或保全用途，由国家设置专门工厂生产;民间用途由国家核可专门民间工厂生产，都须严格测试作工控管，管理单位随机抽查测试，黑盒子自主控管功能！制约机器人理性作工芯片黑盒子，出场贩售组装连接机器人工智能后，【任何人尝试开启黑盒子，更换或破坏芯片...; 或妄图避开黑盒子控管，更改人工智能意识、念头做工指令控管回路】！【黑盒子会自主爆炸，摧毁自主或非自主智能学习型机器人，人工智能运作重要功能】，瘫痪机器人做工载体成【植物人！】【地球生态不可逆极端恶化袭杀，未来残存人类后代进入高阶虚拟现实地球世界学校】后来总成学习与觉醒说法者尧舜敬启！ PS、加油祖国，【先发展简单民生家用需求，人型机器人为实践，取得丰厚市场利润后】！再不断投资精进，更多功能与精准专业用途机器人，厚积勃发!
@IDhaBD 3 months ago

巧了，第一个
@k19820721 3 months ago

我倒不这样以为。强化学习在复杂任务建模上比起其他方式要“简洁容易”的多，或者更符合“第一性原理”，只是训练起来更复杂更难以收敛。从探索和经验的独特能力而言，在未来还是会有更深入的应用，当然也许是某一种变体。从我的角度看，OpenAI之所以在大语言模型上有如此成就，和他之前在强化学习上的积累有直接的关系，几年前放出来的开源框架就有baselines、spinningup和各种算法，在Google那边就不大一样了，搞了几个虎头蛇尾。
@bwnjnoei6245 3 months ago

看题目来的结果一笔带过
@haolang2134 3 months ago

RLHF是主流大语言模型的训练框架，譬如chatgpt，就是基于增强学习😊
@looseman 3 months ago

用7b模型去理解中文實在太難, 還有一個問題就是最多人使用的是簡體字不是繁體, 簡體字的字體被嚴重簡化, 折碼之後的意思已經失去了, 繁體區在訓練模型方面的好像沒有什麼作為, 不太期望會有理解中文能力好的模型出現.
@ZelinWan 3 months ago

相比CV NLP，强化学习确实没那么耀眼，特别是商业领域。期待有好的商业应用能让RL也迎来大发展。
@jianguowu2042 3 months ago

👍👍👍
@mengmeng4312 3 months ago

我也比较看好小模型
@wonmanintp 3 months ago

背景好多啦
@meow-mi333 3 months ago

我觉得强化学习很有意思。
@wubinmatthew 3 months ago

目前还是fine-tune
@qingsongyao4974 3 months ago

https://www.youtube.com/watch?v=c3b-JASoPi0 Andrej也是这么说的 RLHF是错误的方法，因为人类的反馈不是好的reward function
@dl0_0 3 months ago

Can you please add English subtitle 😊
@sonygodx 3 months ago

正在用这公司的8*7B
@zhilongsong8978 3 months ago

没带字幕有点不好做笔记