ChatGPT背後:從0到1,OpenAI的創立之路

語言: CN / TW / HK

 

ChatGPT一出,OpenAI名聲大震,CEO Sam Altman也成為聚光燈下的C位主角,有些報道甚至開始了對他的“造神”運動。年少成名,他不到30歲就成為YC總裁,從2019年GPT-3開始,他開始主導OpenAI的運營事務,並取得了如今的非凡成就。


他擅長將企業發展從1放大到1000,但自OpenAI創立到GPT-2的釋出期間,,還有更多的故事。

 

Greg Brockman是將OpenAI從0到1拉扯到大的關鍵先生。他是OpenAI的聯合創始人,從2015年開始,Greg和首席科學家Ilya Sutskever主導OpenAI的建立,以及日常運營和研究工作。Greg現在也是OpenAI的董事長和總裁(2022年前一直擔任CTO),從企業權力結構來看,他才是OpenAI背後的一號人物。

 

Greg有著非凡履歷。2009年,他本科畢業於哈佛大學數學與計算機科學系,2010年在MIT電腦科學讀博,期間維護XVM、Linerva和scripts.mit.edu等知名專案。畢業後成為網際網路支付平臺Stripe的CTO,幫助團隊實現了員工人數從4人到250人的增長,不過在公司發展蒸蒸日上之際,他選擇急流勇退,繼續追逐偉大的事業,由此才有了OpenAI的創業歷程。

 

OpenAI的誕生也源自一群非凡的投資人。眾所周知,OpenAI起源於2015年門洛帕克的一頓晚飯上,那時大佬雲集,在基於“構建安全的人工智慧以造福人類”的願景下,他們決定建立一個非營利性機構,並且最終獲得了包括Greg Brockman和Sam Altman在內的馬斯克、Jessica Livingston(Y C創始合夥人)、Peter Thiel(PayPal聯合創始人)、Reid Hoffman(LinkedIn聯合創始人)等企業家,以及亞馬遜的AWS等知名企業和機構的十億美元投資。

 

光有錢還不夠,負責建立OpenAI團隊的Greg還要找到能實現這一願景的技術人才。ChatGPT大火之時,知乎上有個熱議問題:阻礙國內團隊研究ChatGPT這樣產品的障礙是技術、錢還是領導力?

 

從技術上看,ChatGPT核心演算法早就是公開的,沒什麼祕密,無論是網際網路大廠還是融資上百億的創業公司也不缺買算力和資料的資本。還有不少人反思說國內缺乏那種投資和創業的土壤。但最核心的是,我們缺乏OpenAI這樣的團隊以及其中極具遠見和堅定信念的領導者,這些是使得一切願景成為可能的必要條件。

 

通過搜尋人際網路,Greg希望邀請一批頂級人才組建隊伍。這個網路上的節點人物很是驚人,包括深度學習領域“三巨頭”Geoffrey Hinton、Yann LeCun、Yoshua Bengio等大牛,這些大牛又給他推薦了人工智慧領域頂尖技術人才,包括機器人與強化學習領域大牛Pieter Abbeel、Andrej Karpathy(後來擔任了一段時間特斯拉AI總監後,最近又迴歸OpenAI)、Ian Goodfellow(GAN網路發明者)、Wojciech Zaremba(Yann Lecun學生)等。當然,除了明星級人物,如果那時你參加線下會議,坐你旁邊的人是Greg,他會主動跟你交流,覺得合適也會邀請你加入OpenAI。

 

Greg認為,團隊的成功需要招募到對的人。儘管OpenAI成立不久,但經過他和Ilya Sutskever的共同努力,吸引了不少業內頂級大牛加入,而這更多依靠的是對OpenAI使命願景的認同,以及與聰明人一起工作的環境。

 

最近,ChatGPT讓國內不少精英再一次感受到落後的緊迫感,不少創業團隊要打造“中國版的OpenAI”。我們不乏真正有抱負的創業者,但想象一下,如果在2015年已經有一支OpenAI團隊,Sam Altman和Greg Brockman這群人很可能會去打造另一支不同於它的“DeepMind”團隊,而不會稱自己要去打造“矽谷版的OpenAI”,並且是為了復現ChatGPT。

 

在Greg Brockman主導OpenAI的最初兩年裡,2016年4月,OpenAI釋出了強化學習研究平臺“OpenAI Gym”的公測版,同年12月,釋出了軟體平臺“Universe”,用於衡量和訓練人工智慧在全球遊戲、網站和其他應用程式中的通用智慧。

 

那一年,Alphago剛剛問世,新一輪AI黃金時代開啟。與此同時,AI領域尚不存在大型語言模型(LLM)這個概念,剛剛成立兩年的OpenAI也沒有釋出GPT模型,他們似乎只有模糊的想法,不過這個新組織每天都在為新技術探索而激動。

 

不管怎樣,如果國內要打造這樣一支團隊,不妨聽聽當事者Greg Brockman是如何從零到一構建起一支原版的OpenAI,從其創業旅程中一窺他的組織構建思想,他如何聚攏了一大批才華橫溢的頂尖人才,這個組織的創新能量又從何而來。

 

(以下內容由OneFlow編譯,轉載請聯絡OneFlow獲得授權。原文:http://blog.gregbrockman.com/my-path-to-openai)

 

作者|Greg Brockman

OneFlow編譯

翻譯|徐佳渝、賈川

 

在高中畢業後的間隔年裡,我曾認真學過程式設計。我讀過圖靈的 《計算機器與智慧》 一書,並深受啟發:程式碼能理解那些編寫程式碼者所不能理解的東西。於是我準備著手寫一個聊天機器人。那麼寫出來有多難呢?

 

我想建立的是能與人正常對話的機器人,但找了很久,似乎沒有人能做出這種機器人。我很快便擱置了這個想法,轉而專注於建立那些能真正產生影響的系統。

 

 

1

大學研究專案

 

讀大學時,我對程式語言很感興趣,由此便進入了AI的大門。編譯器和靜態分析器能“理解”那些我理解不了的程式,於是我便常用其來做一些非常有用的事情,比如快速生成程式碼並檢驗其是否正確。

 

我一直想潛下心來去做程式語言研究,卻總是受到新的創業點子和新同事的影響。其實我的同事人都還不錯,但這些創業想法可就不敢恭維了。無論在哈佛還是麻省理工,我都努力向那些優秀的人看齊,主動融入他們,並與之共建有用的東西。

 

Greg Brockman

 

大三那年,我發現在校創業沒有意義,所以我就和那些創業者面談,汲取經驗。與此同時,我終於開始了程式語言研究之旅。我從一位教授那裡獲得了研究經費,並招募了一些朋友進行靜態緩衝超時檢測專案。

 

幾周後,帕洛阿託(Palo Alto)一家尚未啟動的初創公司聯絡了我。一般情況我會直接刪除這種郵件,但此時我也正準備與初創公司會面,所以我們團隊就立即點開了郵件,此時我也發現,他們也正是我一直在尋找的那種人。於是我離開學校,這也意味著我們的緩衝超時檢測專案就此擱置了。

 

2

 

Stripe生涯

 

那家公司就是現在的Stripe。在我的幫助下,公司規模從4人擴大到了250人;在我離開後的一年裡,又繼續擴大到了450人(當然,這份功勞與我無關)。

 

此時公司的發展正蒸蒸日上,無論有我沒我,都會繼續繼續做偉大的事情,所以我準備離開Stripe。我想做的是與優秀之人同行做些有意義的事情,但開發者基礎架構並不是那個我想窮盡餘生之力去解決的問題。

 

然而,我終於還是找到了那個我想解決的問題:創造出安全的人類級別的AI(human-level AI)。只要這項技術能真正為人類所用,我想一定會引起轟動,並給世界帶來積極影響。

 

(Greg B rockma n與Sam Altman)

 

在我最終決定離職之前,Patrick說Sam Altman有很好的局外人視角,而且見過很多跟我情況類似的人,應該能給我一些好的建議,讓我去和他談談。

 

在與Sam交談五分鐘後,他說:看來你是完全準備好離職了,後續事宜有什麼需要我幫助的嗎?

 

我說AI是我的首選(這絕對是我的人生目標),但還不確定現在是否就是做這件事的最佳時機,而且我也不知道最佳的貢獻方式是什麼。

 

他回答:我們一直在考慮通過YC(譯者注:Y Combinator,美國著名創業孵化器)建立一個AI實驗室,你或許可以跟我們合作。

 

3

 

研究深度學習

 

大約在這一兩週後,我就離開了Stripe,開始著手深入研究AI,想要更好地瞭解該領域正在發生的事情。僅從Hacker News上的帖子(例如 http://karpathy.github.io/2015/05/21/rnn-effectiveness/ )就可以看出:人們對AI尤其是對深度學習的關注度越來越高。但在進入該領域時,我仍然是持有合理懷疑的,在投身AI之前,我想確定一切都是可行的。

 

我的第一個目標是弄清楚深度學習到底是什麼。然而事實證明這並非易事。例如,deeplearning.net上只是說“深度學習是機器學習研究的一個新領域,引入深度學習的目的是使其更接近於最初的目標——人工智慧”。雖然這聽起來很令人興奮,然而卻並沒有說清楚到底什麼是深度學習。

 

幸運的是,我有一些從事AI行業的朋友:Dario Amodei( 曾任OpenAI研究主管,現Anthropic創始人和CEO )和Chris Olah( 曾任OpenAI技術主管,現為Anthropic聯合創始人 )。我向他們徵求了一些意見,他們給了我一些很好的入門資源,其中最有用的是Michael Nielsen寫的書。我讀完後還在Kaggle上練習了新學到的技能(在第一次比賽時我就拿到了第一名!)。

 

一路走來,我不斷遇到AI領域中那些超級聰明的人,並與我大學時最聰明的一些朋友重新建立了聯絡,例如現在在該領域工作的Paul Christi ano( 曾任OpenAI研究員,現Alignment Research Center創始人 )和Jacob Steinhardt( 加州伯克利分校助理教授 )。 我覺得這是一個強烈的訊號。

 

我瞭解得越多,就越相信AI已準備好散發自己的光芒。深度學習的能力簡直令人難以置信,比如,我們現在可以 極其準確地 對影象中的目標進行分類(2014年的XKCD就已經實現), 語音識別 非常精準,還可以生成十分逼真的影象。不過雖然這些技術足夠新,但到現在為止還沒有改變人們的生活方式,它們如今的影響還僅限於支援某些產品實現特定功能。

 

有一位朋友曾開發過Facebook News Feed。還記得我曾對他說過這樣一句話:簡單的演算法,大量的資料。每個人都試圖兜售很酷的新AI演算法,但實際上只需要擴充套件邏輯迴歸(logistic regression)就會非常奏效。而他對此持懷疑態度。然後我就拿出了谷歌翻譯App,將其設定為飛航模式,並向他演示瞭如何直接翻譯圖片上的文字。他對此印象頗深,並承認簡單的演算法對此無濟於事(這背後主要是深度學習在發揮作用,不過這不是重點,重點是它有效。)

 

4

 

創業想法誕生

 

Sam Altman在2015年6月聯絡我,問我是否已經想好下一步該做什麼了,我告訴他目前的計劃是明年開一家AI公司。然後我們打了通電話,他提到他們正在推進YC的AI專案。我問:實驗室的目的是什麼?“建立安全的人類級AI”,他說。

 

在那一刻我就知道,他很適合當我下一家公司的合作伙伴。現在很少有人敢於明確嘗試構建人類級AI。我意識到,有時候一項成就只需要有個膽大的人宣佈目標,然後合適的人就會加入其中。

 

大約一個月後,Sam在門洛帕克(Menlo Park)舉辦了一場晚宴,參加宴會的有Dario、Chris、Paul、Ilya Sutskever、Elon Musk、Sam和其他一些人。

 

我們討論了AI領域的現狀、目前離人類級AI還有多遠以及實現人類級AI還需要的東西等等。整場對話圍繞著“什麼樣的組織可以最好地確保AI的有益性”展開。

 

答案很明顯:必須 是非營利組織,因為沒有任何利益衝突來影響其使命。此外,這樣組織還必須保持在研究的前沿(根據Alan Kay的名言,“預測未來的最好方法就是創造未來”)。為此,該組織需要有世界上最好的AI研究人員。

 

所以問題就變成了:是否有可能從頭開始建立一個擁有最優秀AI研究人員的實驗室?我們的結論:還是有機會。

 

這是我第一次見到Elon和Ilya,我對他們的印象非常深刻。Elon充滿了好奇心,他真誠地徵求他人意見並用心傾聽每一份回答;而Ilya則是技術基礎的源泉,他是一位頭腦清晰的技術專家,知識廣博,視野開闊,並且總是能夠深入到當前系統侷限性和功能的具體細節。

 

我請Ilya對深度學習給出一個好的定義,以下是他的回答:

 

有監督深度學習的目標是解決幾乎所有“將X對映到Y”形式的問題。X包括影象、語音或文字,Y包括類別甚至句子。將影象對映到類別、將語音對映到文字、將文字對映到類別等等,如此種種,深度學習都是非常有用的,而且其他方法無法做到。

 

深度學習一大吸引人的特點是它在很大程度上是獨立於其他領域之外:在一個領域中學到的許多東西可以適用於其他領域。

 

深度學習模型中建立了抽象層,這些抽象可以完成工作,但很難理解它們究竟是如何做到的。模型通過使用反向傳播演算法(簡單且高效)逐漸改變神經網路的突觸強度來學習。因此,我們可以用極少的程式碼來構建出大規模複雜的系統(因為我們只需要編寫模型和學習演算法的程式碼,而非最終結果)。

 

晚宴結束後,Sam送我回城裡。我們都認同值得在AI領域做點什麼。我知道,只有當有人願意全心全意地弄清楚這究竟是什麼,誰又能夠加入其中,我們的願景才會成為現實。那就讓我來當這樣的人吧。

 

所以,我明天又要構建一些有影響力的東西了。

 

5

 

OpenAI的願景

 

那次晚宴上,我們談論了成立OpenAI實驗室。雖然每個來參加晚宴的人都各抒己見,但並沒有一個清晰的願景,而Elon和Sam則提出了自己的想法:OpenAI旨在構建安全的人工智慧以造福人類。我也想盡可能貢獻自己的力量,為了如願以償,便開始和Sam一起組建團隊。

 

不過我們缺少了一個核心要素,即一位AI技術遠見者,其直覺和想法可以幫助我們取得突破。

 

 (從左至右依次為Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)

 

顯然,Ilya Sutskever是最佳人選。Ilya可以說是一位藝術家,他常常通過機器學習來表達自己的感受(有時也會通過繪畫來表達)。Geoffrey Hinton(深度學習教父)曾告訴我,AlexNet之所以能引發一場計算機視覺深度學習革命,在於Alex Krizhevsky高超的GPU編碼技能及Ilya的信念,即深度神經網路必定會在ImageNet競賽中獲勝。(Geoff對自己貢獻的管理技巧感到無比自豪。Alex非常討厭寫論文,Geoff告訴他,他在ImageNet上的效能每提高1%,他就可以把論文推遲一週。結果Alex拖延了15周。)

 

一直以來,我都認為自己只能與相識多年的朋友共創公司。然而事實並非如此。八月下旬,我和Ilya在山景城共進晚餐,當時我就知道我們會一起合作,在此之前,我們也只在七月見過一次。我和Ilya聊得十分投機,儘管我對機器學習研究的瞭解不多,他對工程和團隊建設的認識也沒有那麼深入,但我們對彼此的成就印象十分深刻,也希望能夠相互學習。

 

我們交流了彼此的看法、汲取了彼此的長處。Ilya認為,頂級研究人員希望在人工智慧組織工作,而該組織致力於為世界創造最佳成果。在我看來,要想解決一些棘手問題,則需將私營企業的資源與學術界的使命相結合。

 

若無外界干預,人工智慧將會像自動駕駛汽車一樣發揮自身的作用。一旦人工智慧的潛力得以證實,人們就會與之展開合作,而後則是一場場技術競賽。不過,人類級別的人工智慧將會是一種與眾不同的變革性技術,有其獨特的風險和收益。我們看到了這一機遇:在人工智慧領域展開合作,彙集眾多頂尖研究人員,以取得史上最重大的科技突破。

 

Ilya和我一直在討論團隊組建方案,直到該方案得以落實。期間,我們討論了戰略(即將從事什麼工作)、文化(想僱用的人員,即同等重視工程和研究的人員)和策略(舉辦每日閱讀小組)。Alan Kay與我們共進晚餐時,向我們講述了 施樂帕洛阿爾託研究中心 (Xerox PARC)的故事,包括Alto的誕生及用硬體“在未來生存”,這些硬體在十年內將花費1000美元。

 

事後,Ilya對用餐期間的談話做了巧妙總結:“雖然Alan的話我只聽懂了一半,但令人振奮不已。不過這頓飯幫我們驗證了許多假設,即怎樣才能構建一支能將工程與研究相結合的有影響力的團隊。

 

6

 

早期團隊的招募

 

由於Ilya還在谷歌工作,因此無法幫忙招聘,這一工作就落到了我身上。8月至11月,由我負責創辦團隊。不過,我對人工智慧並不熟悉,不清楚如何招募優秀的研究人員。我首先關注的是7月參加過晚宴的人,但不能確認具體人選。

 

下一步,便是通過人際網路與這些人取得聯絡,並依次尋求他們的推薦,這與我以往的招聘方式有所不同。對於初創公司而言,首要挑戰總是要向候選人“兜售”使命,但在OpenAI,使命立刻引發大家的共鳴。於我而言,挑戰在於如何說服候選人相信這個未成形的組織。

 

 

人工智慧領域頂尖人才的人際網路對我幫助很大。一位朋友引薦我認識Andrej Karpathy和Wojciech Zaremba(OpenAI聯合創始人),由於我並未從事該領域工作,他們對我說的話表示懷疑。Yoshua Bengio又將我引薦給Durk Kingma( 曾任OpenAI研究科學家,現在谷歌研究團隊 ),當時後者對於我的提議表示很感興趣,不過這種興趣轉瞬即逝。真正的轉折點是John Schulman( OpenAI聯合創始人、研究科學家 )的評價,我跟他聊到這一組織的成立,他表示這樣的組織正是他所追尋的,能將學術界的開放與使命同私企的資源相結合,因此加入了我們。John的支援也引起了Andrej和Wojciech的關注。

 

招聘工程師相對容易一些。Trevor Blackwell是一位機器人專家,也是YC的合夥人,他一直在與Sam討論我們正在計劃的瘋狂想法。Vicki Cheung( 現Gantry聯合創始人 )是在我們成立贊助機構“YC Research( 現為OpenResearch )”之後申請加入的。那時,我們雖未表明研究領域是AI,但她深受YC Research構架的鼓舞,並表示很樂意參與我們團隊的所有工作。

 

11月初,雖然我們對創始團隊有了更深入的瞭解,但仍然需要讓大家正式加入進來。在Sam的建議下,我們邀請了所有候選人去戶外漫步。期間,人人都真切地表達了內心想法、觀點,才思泉湧(實際上,該地也是Andrej提出 Universe 之地)。回程中,一路上交通堵塞。不過幾乎沒人留意到這一點,因為大家聊得太投入了。

 

 

我們給此次活動的參與者都發了offer,並將offer的截止日期設定為12月1日,這樣我們就可以在12月初的 NIPS (NeurIPS)機器學習會議上釋出成員加入的訊息。

 

“月末”就這樣開始了。Sam、Elon還有我和每個人都聊了聊,主要是讓大家相信這件事的真實性。除了一名完全無意涉足人工智慧的工程師外,其他候選人都接受了我們的offer。

 

Fred Brooks在《人月神話》一書中提及了Robert Heinlein的故事,該故事講述了“登月”專案。該專案的總工程師總會被運營任務分散注意力,例如關於運輸車或電話的決策,這種情況一直持續到他收到一份報告,據報告顯示不再讓他負責所有與技術無關的任務。

 

這一故事給我留下了印象深刻,我認為它同樣適用於構建人工智慧的專案。技術領導除了做實際技術工作以外,同時還應該親自做決策。我不知道自己的工程技能何時才能派上用場,不過在此期間,我決定盡我所能幫Ilya分擔與研究無關的任務。

 

2016年1月4日,我們整個團隊來到第一間辦公室(也就是我的公寓)開始工作。討論中,John和Ilya轉身打算在白板上寫點些什麼,卻發現這兒沒有白板。我立即給他們買了一塊白板,還有一些辦公用品。

 

我們的第一間辦公室(配有白板)

 

在一月剩下的時間裡,我負責組織團隊,幫忙確定哪些人負責哪些工作,以及團隊想達成的目標。我們討論了研究人員需要具備什麼品質,踐行公司理念,設計並確保面試順利進行。此外,我們還談論了願景、工作方式以及想要達成的目標。我和Vicki購買了伺服器,建立了Google Apps帳戶,同時對我們12月啟動的Kubernetes叢集進行了維護。

 

餘下的時間,我閱讀了Ian Goodfellow(GAN網路發明者)的深度學習書籍(並寫下了書評,由於我的評論比其官方評審員的評論更加全面,給他留下了深刻印象。因此,這也不失為一種招聘策略)。

 

7

 

Gym庫

 

比起使用新的資料集,使用一種新的演算法通常能解決機器學習中的問題,Wojciech建議構建一個庫來形成 強化學習環境 的標準(實際上是動態資料集),現在稱之為 Gym 。這個程式碼庫的質量很快成為我們迭代速度的高階位(high-order bit)。二月底,我和John討論了Gym的公開發布時間。按照目前的發展情況,他認為可能要到今年年底才能釋出。

 

(我們正在用機器學習訓練Fetch機器人。Gym支援控制物理機器人和模擬機器人。)

 

一時之間,工程學成了研究進展的瓶頸。Ilya與我互換了角色,由他負責行政工作,這樣我就可以專注於技術工作。和John考察了這項工作之後,我們知道在四月底之前就能構建好Gym。

 

在Stripe時,我發現了一個能夠直接建立軟體系統的可重複模式,即專注於軟體,排除一切干擾,從早工作到晚。這樣一來便能激勵大家貢獻自己最好的作品(重要的是,是以輸出質量來衡量而不是工作時間)。這是我感覺最有活力的時候:程式設計就如魔法變成現實一般,我所想象和描述的事情都將成為可能。這種模式產生了Stripe信用卡保險庫(2010年構建完畢,也就是在我假期回家的兩週內完成的)、信用卡授權流程(在三週內就能建成,而銀行構建週期卻需要6-12個月)和 奪旗賽 (通常我和其他人都要花三週的時間)。從戰術上講,我可以選擇一個“試發行”日期和“正式”釋出日期,間隔一兩週;我從未選擇過“試發行”日期,但從未錯過“正式”釋出日期。

 

隨之而來的是從未面臨過的挑戰。由於我並非該領域的專家,起初,引起了很多摩擦。我會構造一個抽象的框架來幫助Wojciech的工作順利進行,而John會發現這一舉動阻礙了他的工作程序。但很快,我就瞭解到哪些決定會影響研究的工作流程(例如人們如何記錄指標)以及哪些細節研究人員不會關注(例如人們如何錄製視訊)。在確定了案例對研究的重要性之後,要保持一定的謙遜,才能做出最佳選擇。我通常會提出五個可能的備選方案,John則會指出其中有四個方案都不行。但大多數設計決策可以通過軟體工程的直覺做出,而無需深入瞭解相關領域。

 

幸運的是,我不是一個人。大約在Gym釋出的前六週,曾與我在Stripe一起研究CTF 3的Jonas Schneider聯絡了我。短短几天時間,我們就在Gym上建立了合作關係。因為他人在德國,所以我們通過每日交接最終成功地完成了該專案。對於已經建立好工作關係的人來說,這真的很奇妙,若一切從頭開始,我們不會保持如此緊密的工作關係。

 

(Gym釋出後不久,我們在ICLR(國際表徵學習大會)上分發OpenAI的T恤。)

 

總的來說,機器學習系統可視為機器學習的核心之一——通常是一種高階演算法,要想理解該演算法,至少需要閱讀過幾章Ian的書——涉及大量軟體工程的內容。工程可以圍繞資料進行改組,提供輸入和輸出的封裝器,或排程分散式程式碼,這些都會都以黑盒形式與核心(core)連線。我們在工程和研究方面作出的努力達到一定程度時,機器學習就會取得進步。工程方面每多一分努力(例如減少 Universe 延遲),我們的模型問題就會逐漸變得更容易,並且有機會完成當前研究。

 

8

 

Universe平臺

 

在今年4月Gym上線後,我和Ilya開始調整組織流程。Sam和Elon都會到訪公司,提出一些指導意見,我們會根據其指導來確定團隊的結構及目標。

 

(團隊在第一間辦公室工作的場景。當時辦公室有白板,只是圖片中未顯示。)

 

多樣、複雜的AI環境是必不可少的。Andrej提出了一個不錯的建議,即建立一個Agent來控制Web瀏覽器,但這與 Selenium 測試工具有所衝突。我開始考慮使用VNC,以允許Agent從畫素驅動整個桌面。

 

但我們發現,這種方法存在許多風險。例如,2013年DeepMind釋出的 Atari文章 提出,他們花了50個小時從畫素訓練Pong遊戲,我們的環境將比Pong更難。即使是做小規模的實驗,我們也需要花幾天時間,而且不會取得任何進展。因此,我們設定了一個降低內部風險的目標,即讓Agent在一小時內學會Pong(如今我們已取得了突破:十分鐘內便能解決Pong遇到的問題)。

 

就像構建Gym時那樣,我專注於構建VNC系統,現稱之為Universe。與Gym不同的是,該專案並非旨在支援我們現有的研究方式,而是提出全新的問題。關於這一點,我們每個團隊都有負責人,他們負責照顧自身團隊的成員,我們的工程師Jie Tang已開始帶頭招聘。因此,行政這一重擔並沒有完全落在Ilya身上。這十分幸運,因為這樣Ilya就能為該風險專案的首個版本構建Agent。

 

一個從整個動作空間隨機抽樣的Universe Agent(即隨意點選、按鍵)。更多表現良好的Agent請參閱 Universe釋出的帖子

 

Universe專案耗時相當長,因此,需要合理分配時間來運營專案。我找到了一個平衡點,編碼時,我會將時間進行劃分。一次會議會扼殺整個上午/下午的生產力,若上午和下午都有會議,我將精疲力竭,從而導致晚間的編碼效率大大降低。因此,我開始將會議時間限制在清晨或午餐後,且每天的會議次數低於三次,隔天的會議次數不超過一次。

 

搭建Universe本身就是一項系統研究工作:雖然高階規範很簡單(允許Agent使用鍵盤/滑鼠/螢幕),但從來沒有人嘗試過構建類似的系統。長期以來,人類一直可以用VNC控制一臺遠端機器,但還無法實現以程式設計方式同時控制數十臺機器。

 

當我們需要衡量系統的端到端延遲時,Catherine Olsson和我構建了一個系統來將時間戳嵌入影象中。有時挑戰不是技術上的:當研究因為訓練資料有限而受阻時,Tom Brown在24小時內就組建了一個外包團隊來玩遊戲。有時候挑戰也可能很難以理解,比如當Jonathan Gray注意到由於外包人員的膝上型電腦CPU較低端,遊戲動態可能會與AI有所不同。

 

一天,當我正在努力重組一些JSON基準規範時,我意識到:我們需要重新構建這些規範,因為沒有人從未嘗試過在數千個遊戲中對單個Agent進行基準測試。在OpenAI,做艱苦的工作也是最基本的。

 

在接下來的幾個月裡,由Dario Amodei和Rafał Józefowicz負責Universe的研究工作。他們都是夜貓子,我也和他們一起熬過了很多個夜晚,解決研究中遇到的問題。有時我也想躺在床上睡覺,但每修復一個Bug都會使研究加速幾個小時。每個人的工作中都有一些非常有用的東西,能讓研究人員提出人類此前從未有過的問題。

 

Universe團隊在辦公室開會

 

到釋出時,Universe團隊已經有約20個人了。Universe現在是一個旗艦專案,也是我們研究戰略的核心部分。Universe的例子恰好說明“工程”是如何成為當今ML研究的瓶頸,這也讓我知道為什麼有那麼幾天只想讀Ian的書了。

 

9

 

下一步發展方向

 

我們現在是一個擁有四十人的公司,需要有人全力來優化團隊。自OpenAI成立以來,我們一直在尋找合適的首任技術經理。幾個月前,Sam向我介紹了一位特別出色的工程執行人:Erika Reinhardt。Erika曾在Planet Labs擔任產品工程總監,現在在和Sam一起運營voteplz.org。在Planet Labs時,Erika是對端到端衛星成像系統瞭解最深的人之一。她工作努力,自驅力強,總能把事情做好,前同事都說她是所能遇到的最聰明的人。Sam和我就準備邀請她加入公司。

 

 

公司團建,2016年10月

 

但在選舉會和Universe釋出會上與我們合作時才是她最具魅力的時刻,她發現她的領導技能在這種環境中非常適用。她告訴我:在看到OpenAI在參議院舉辦的首次AI聽證會上發言的那一刻,她就下定決定要加入OpenAI。當時OpenAI說:我們正處於重大技術變革的開端,此時最重要就是要把握時機。

 

在Stripe時,Marc Hedlund和我常會遇到他在之前的許多公司中都遇到的問題,所以他喜歡開玩笑說所有公司都一樣。就這一點而言,確實有現實依據:如果將範圍縮小一點,就會發現公司都是圍繞一個目標來把人組織起來。但每個公司要解決的問題又不一樣,這又決定了公司之間會有所差異。

 

大多數初創公司都是先創造出一種技術,然後隨著時間的推移對其進行運營和擴充套件。OpenAI是創造新技術的工廠,這意味著我們必須構建公司來創造新事物。我們需要維護基礎設施和大型程式碼庫,但它們又滿足了我們快速行動、創新和通過結合軟體工程和機器學習研究來達到新高度的需求。

 

在OpenAI當CTO的這段時光裡,我做的正好是我最喜歡做的事:寫程式碼。但即便如此,人仍然是我關注的焦點,所以我在OpenAI的故事是與社會的故事,而不是與技術的故事。

 

在未來,我們團隊要繼續攜手並進,共同應對海因萊因短篇小說中“卡車或電話”的挑戰,OpenAI才能持續發展。在此,我向Ilya、Sam、Elon以及為OpenAI付出過的每一個人表示衷心的感謝。

 

 

 

其他人都在看

歡迎Star、試用OneFlow最新版本:http://github.com/Oneflow-Inc/oneflow/

 


 

 

本文分享自微信公眾號 - OneFlow(OneFlowTechnology)。
如有侵權,請聯絡 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。