▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

在RStudio年會上,我遇到了一群看似與數據無關的人

2019-05-06 18:34
來源:澎湃新聞·澎湃號·湃客
字號

RStudio 是 R 語言最常用的集成開發環境(IDE),該公司每年都會舉辦為期一周的培訓和大會,參會者通常是企業、政府、學界負責統計和編程的中層人員,他們的頭銜包括“數據科學家”、“數據分析師”、“數據工程師”、“統計學家”、“增長分析師”等等。培訓和大會都是演講形式,由 RStudio 公司員工或其他對使用 R 有豐富心得的各界人士介紹程序拓展包的開發動向、數據分析案例等。

因為參會都是企業給員工報銷,所以會費價格不菲。如果每項活動都參加,再算上差旅和食宿,需要三四千美元。幸運的是,RStudio 也給少數群體發放獎學金。2019 年 1 月的年會,我有幸成為 38 位獎學金獲得者之一,參加了在德州奧斯汀舉辦的 RStudio 2019 年年會,又寫作 rstudio::conf(2019)。

由于培訓和大會只有一周,其實能學到的技術知識遠不足以直接拿來應用。我主要的收獲還是對“數據”在業界、學界、政府部門中的使用有了新的認識,也結識了很多我自己熟悉領域之外的數據行業工作者。

說起“多元化”的時候,我們通常指的是種族、性別等方面。雖然 RStudio 在這些方面做得也很好,讓我印象最深的還是會上行業和分析方法的多元化。

行業的多元化

在大會上,我認識的許多人都來自乍一聽和“數據”毫無關聯的行業,例如水泵、電力、漁業等等。深入交談后,我發現他們的公司都已經有幾十人的成熟數據團隊,日常工作也真的是在獲取、分析數據,而不是制作充滿熱門詞匯但毫無實際意義的幻燈片。

下面是我碰到“有趣數據人”的不完全名單:

1)全球領先水泵公司的高級數據科學家

據他介紹,他所在的水泵公司幾年前就在高層領導的推動下建立了數據團隊,負責“預測性維護”(即推算水泵最可能在什么時間、什么地點壞掉)。他拿到數學博士學位后加入了該公司,現在團隊已有 20 人。

他們目前只能從新安裝的水泵中獲取數據,因為獲取數據需要在水泵中安裝一個硬件設備。早期的水泵除非公司回收,否則無法獲取任何數據。

我還和他聊到在全球不同市場的合規問題——這家公司業務遍及世界各個大國,這么收集數據肯定容易引發法律爭議。他說他做法務的同事一直在研究這個問題,公司目前只在其熟悉的市場收集數據。

2)美國某大型能源公司的首席氣象學家

我們開始聊天是因為我發現他名片上的公司標志和我每個月付電氣費網站的標志一模一樣。

這位氣象學博士在公司的可再生能源部門,負責收集精確到分鐘的氣象數據,預測美國各地區未來五年、十年有多少太陽能和風能可被利用。

他介紹自己工作的時候兩眼放光,特別勵志。他說他 14 歲就想做氣象學家了,所以現在可以每天分析氣象數據非常幸福。

3)幫美國聯邦政府做全國性調查的私營公司統計學家

美國聯邦政府常規開展許多大型全國調查,研究內容包括居民就業、健康、學生閱讀水平等等。有些聯邦政府部門(例如勞動統計局 Bureau of Labor Statistics)有全職員工負責調查工作,但是多數部門因為資源有限,所以把調查外包給私營公司。我見到的就是這樣一個公司的統計學家和程序員。

公司開展一項全國調查的程序大概是這樣的:統計學家首先進行抽樣,確保調查樣本具有代表性。為了保證少數族裔的調查結果可靠,統計學家還要過采(oversample)少數族裔。確定完樣本以后,調查員就去敲門做調查了。數據返回給總部后,有專門清洗數據的部門來清洗數據(佩服這個部門的員工!)。清洗完后,統計學家對結果進行加權。公司還有很多程序員來開發方便統計學家工作的公司內部工具。

有一位負責居民健康調查的統計學家介紹了“受訪者自行匯報數據”(self-reported data)的可靠性。她說,如果調查員問受訪者他的身高體重,基本上所有人都會高報身高、少報體重。所以可靠的調查都是調查員帶著尺子和稱,現場去量的。

這讓我想到美國人口普查局的一項研究,他們把稅務部門的居民繳稅數據和經濟調查中受訪者自行匯報的收入數據合并,發現在一個家庭中,當妻子掙得比丈夫多時,妻子會大幅少報自己的收入,丈夫會大幅高報。這種現象在丈夫比妻子掙得多的家庭卻不存在。

4)美國最大招聘網站之一的經濟學家、數據科學家

我有幸認識了這家公司五個不同崗位的員工,他們有的負責分析網站的招聘數據,定期發布美國勞動市場報告;有的則分析雇主在網站上的行為,預測哪些雇主更有可能投放廣告,付費推廣他們的空缺職位。

讓我印象最深的是這五個人的教育背景。五人中只有一個是經濟學專業,其他人來自生物、社會學、法律、信息科學(information studies)背景。他們都說公司致力于建立多元化團隊。

5)國際慈善組織的數據分析主任

出乎我意料的是,這家組織也有十多人的數據團隊。不過他們目前收集、分析的只是該組織各個慈善項目的收支。主任說,她非常希望團隊可以從實證角度分析每個慈善項目的影響,但數據采集需要的花費太高,目前她的組織沒有這樣的資源。

我問她,缺少資源是因為慈善組織缺錢嗎?她說,問題其實是社會和捐贈人都希望慈善組織的錢可以盡可能花在實際救助上,而她的數據團隊相當于“管理層”,沒有人會希望善款花在“管理費”上。

不過,積極的一面是,這個慈善組織幾年前就建立了內部數據庫。該組織世界各地的辦公室之間發送、更新數據,已經不再使用 Excel。講到這里,這位數據分析主任終于笑了。

還有很多其他有趣的人...

- 美國國防部下屬研究院的分析師(工作內容不涉密)

- 為加拿大地方政府做“漁業數據可視化”的咨詢師

- 美國知名大學基因實驗室的科學家

- 大型共同基金的市場營銷主管和軟件工程師

我問他們在做每個季度收益圖的時候可不可以通過修改畫圖方法來展示一條“更好”的收益線。他們說,行業有相關規定,大型基金在畫圖的時候都有統一模版,不能擅自修改。

分析方法的多元化

除了行業的多元化,大會讓我印象深刻的還有分析方法的多元化。社會科學主要講因果推斷(causal inference),其他的分析方法很少涉及。這次在 RStudio 大會,我見到了更多的分析方法。

預測性分析(predictive analysis)

“不經思考就隨意把各個變量丟進軟件里跑回歸”可以說是社會科學研究之大忌,不過我在 RStudio 大會上卻見到了不少適合這種方法的應用場景。在實驗科學中,大量回歸分析可以幫我們找到可能的因果關系,之后我們可以再用控制實驗來準確證明。在市場營銷領域,知道 “A 可以很好地預測 B” 已經足夠了。非要弄清楚它們之間有沒有因果關系,很多時候是浪費時間。

A/B 測試(又稱線上實驗)

社會科學家也做實驗,但我的理解是,他們和業界人士的關注點不同。業界的實驗,例如“改變某個按鈕的顏色”,通常在因果識別方面沒有社會科學實驗那么“麻煩”——社會科學實驗常常會出現“實驗組人員接受了對照組的處理”、“實驗組人員互相影響”等各種問題。業界的實驗在這方面相對簡單直接,但由于其數據規模大、實驗頻率高,所以業界的數據人員更關注以下兩點:

建立完善的底層架構、自動化工作程序,這樣線上實驗可以更規范;

提高非數據人員對線上實驗的理解,這樣他們可以在實驗前就定好實驗計劃,實驗開始后不會再修改樣本或者實驗時長。

描述性分析(descriptive analysis)

光是有描述性分析在社會科學界很難發表論文,但在 RStudio 大會上,我看到了描述數據的價值。過去這一年,有不少孩子在美國邊境被移民局工作人員帶離了他們父母。民間法律組織 ACLU 的數據科學家 Brooke Watson 匯總了這些孩子的基本信息,并向 RStudio 大會參會者介紹了孩子的安置情況。

她花了幾個星期時間,從各地民間組織那里獲得了孩子們的基本信息(姓名、生日、性別、安置地)。但由于這些 Excel 表格格式不一,她每天的工作就是清洗這些數據,最終合并成一個大表格。

這些數據并不全,她也不知道有多少孩子沒有被收錄。但就是這樣一個殘缺、不具代表性的數據集還是引起了很大反響。她制作了地圖、分析表格后,收到了美國各地民眾和議員的來信,很多人因此而決定行動起來。

每位數據工作人員其實 90% 的時間都在清洗數據,不過我們通常不會因此得到任何贊揚,因為“清洗數據”聽起來是一項機械、技術含量遠不如“建模”的工作。但我覺得,能堅持幾周、幾個月清洗完大量來源復雜的數據,本身值得嘉獎。回歸系數是知識,描述性的總結數據也是知識。

包容的氛圍

RStudio 大會包容的氛圍也讓我印象深刻。我作為學生,一開始很擔心這些從事數據工作的中層管理人員會很難接近。實際上,他們是我見過最聰明卻最友善的一群人。我打招呼的每個人都細心跟我介紹他所在行業最基礎的知識,除了專業內容還又介紹了很多職場經驗。

大會組織者對營造這樣的氛圍非常上心。他們多次強調,幾個人如果圍成一個圈聊天,一定要留一點空間,好讓其他人加入。大會的行為守則也提供了很多舉報騷擾等不端行為的方法。我在大會上還見到了哺乳期的媽媽、坐輪椅的殘疾人。

申請獎學金

2020 年的 RStudio 年會將在一月的舊金山舉行。每年獎學金面向的人群不同,感興趣的朋友可以在 2019 年八月關注 RStudio 網站。

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 许昌县| 深泽县| 呼伦贝尔市| 云梦县| 余江县| 江津市| 阳信县| 芮城县| 翁源县| 周至县| 雅安市| 孟州市| 马公市| 西乌珠穆沁旗| 安宁市| 沂南县| 宜都市| 海南省| 彩票| 贵港市| 资阳市| 苗栗市| 特克斯县| 大英县| 镇坪县| 晋江市| 博湖县| 东乌珠穆沁旗| 定日县| 蓬安县| 梁河县| 任丘市| 府谷县| 正镶白旗| 堆龙德庆县| 南丰县| 宜章县| 铅山县| 镇赉县| 烟台市| 六安市|