2021 年年度最佳開源軟體!

語言: CN / TW / HK

爭做團隊核心程式設計師,關注「 幽鬼

來自:今日頭條,作者:風吹草低見到喜洋洋

連結:http://www.toutiao.com/a7028029253035770371/

Svelte

http://svelte.dev/

Svelte 是一種全新的構建使用者介面的方法。傳統框架如 React 和 Vue 在瀏覽器中需要做大量的工作,而 Svelte 將這些工作放到構建應用程式的編譯階段來處理。

與使用虛擬(virtual)DOM 差異對比不同。Svelte 編寫的程式碼在應用程式的狀態更改時就能像做外科手術一樣更新 DOM。

Minikube

http://minikube.sigs.k8s.io/

Minikube 可以在本地單機上執行Kubernetes叢集的工具。Minikube可跨平臺工作,不需要虛擬機器,不需要在MacOS或Windows上安裝Linux。支援多種容器,如Docker,CRI-O,Containerd等。

Pixie

http://px.dev

Pixie是檢視Kubernetes的工具。可檢視Kubernetes叢集的狀態,比如,伺服器叢集效能,網路狀況,叢集資源 以及 相關應用程式等。 還可以檢視更詳細的內容,比如,pod狀態,請求量,熱點圖等。 Pixie的資源佔用僅有5%左右。

FastAPI

http://fastapi.tiangolo.com/

FastAPI是一個Python網頁框架。FastAPI以其高效、易用贏得了開發者的青睞,直接挑戰了Django和Flash的傳統地位。FastAPI的優點是,型別檢查、自動 swagger UI、支援非同步、強大的依賴注入。

Crystal

http://crystal-lang.org/

Crystal已經面試很多年了,Crystal的特點是兼具C語言的高效和Ruby的靜態型別。今年初已經發布了1.0版本,目前最新版本為1.2.1,已經足夠穩定。

Microsoft Terminal

http://github.com/Microsoft/Terminal

Microsoft Terminal 是一個開源的Windows的終端,提供類似Mac和Linux命令列的體驗。Microsoft Terminal具有GPU加速渲染,較傳統控制檯具有更好的效能提升。

OBS Studio

http://obsproject.com/

OBS Studio 是一款用於直播和螢幕錄製的軟體,為高效捕獲,合成,編碼,記錄和流傳輸影片內容而設計,支援所有流媒體平臺。快捷鍵可讓試圖平滑切換,甚至還有畫中畫和實時字幕的新功能。

Shotcut

http://shotcut.org/

Shotcut是一個強大的影片編輯工具。Shotcut具有中文版支援,可在Windows,MacOS,Linux,BSD等作業系統上執行,Shotcut具有數百種音訊、影片格式,以及編解碼器,且無需匯入,可直接編輯。

Weave GitOps

http://github.com/weaveworks/weave-gitops

Weave GitOps 是一個GitOps工具。其目的是簡化DevOps的工作流程,通過宣告配置使Kubernetes更加穩定和安全。Weave GitOps 基於 雲原生基金會的 Flux。

Apache Solr

http://solr.apache.org/

Apache Solr 是基於 Lucene 的全文搜尋伺服器,也是最流行的企業級搜尋引擎。Solr 放棄了開源的許可證,不過現在仍然是免費的。Solr 可叢集部署、可在雲端部署,甚至包括 LTR 演算法,可自動調整加權結果。

MLflow

http://mlflow.org/

MLflow 是由 Apache Spark 技術團隊開源的一個機器學習平臺。MLflow 由 Databricks 建立,並由 Linux 基金會託管,是一個 MLOps 平臺,可讓使用者跟蹤、管理和維護各種機器學習模型、實驗及其部署。MLflow提供了記錄和查詢實驗(程式碼、資料、配置、結果)的工具,將資料科學程式碼打包成專案,並將這些專案接入工作流程。

Orange

http://orangedatamining.com/

Orange 是一款用於開源機器學習和資料視覺化的工具。Orange與 R Studio 和 Jupyter等程式化或文字工具相比,Orange 更直觀易操作。Orange 包含了完整的一系列的元件以進行資料預處理,並提供了資料賬目,過渡,建模,模式評估和勘探的功能。

Flutter

http://flutter.dev/

Flutter是谷歌推出的一個新用於構建跨平臺的手機、網頁、桌面,嵌入式裝置應用的SDK。Flutter 的元件,比如,滾動條、導航、圖示和字型,整合了IOS和安卓平臺的差異。

Apache Superset

http://github.com/apache/superset

Apache Superset是一個現代的、輕量級視覺化BI分析工具。Apache Superset在視覺化、易用性和互動性上非常有特色,使用者可以輕鬆對資料進行視覺化分析。而且Apache Superset 已經達到企業級商業軟體的水平。

Presto

http://prestodb.io/

Presto 是一個開源的分散式 SQL 引擎,用於叢集中的線上分析處理。Presto 可以查詢各種各樣的資料來源,從檔案到資料庫,並將結果輸出到BI和分析環境。更重要的是,Presto 可以在 Hive、Cassandra、關係型資料庫中進行查詢,而且Presto 還可以結合多個來源的資料查詢。

臉書、Uber、推特和阿里巴巴創立了 Presto 基金會。其他成員現在包括 Alluxio、Ahana、Upsolver 和英特爾。

Apache Arrow

http://arrow.apache.org/

Apache Arrow 是一個列式記憶體分析層,旨在為CPU和GPU上加速大資料的分析。它包含了一套平面和分層資料的典型記憶體表示,Arrow 記憶體格式支援零拷貝讀取,並且不必序列化的情況下訪問資料極快。目前Apache Arrow支援的語言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。

InterpretML

http://interpret.ml/

InterpretML是微軟推出的可解釋機器學習包。其中包含了幾個最先進的機器學習可解釋性技術。InterpretML提供了兩類解釋性型別:明箱(glassbox) 模型和黑箱(blackbox)模型。InterpretML 可讓實踐者通過在一個統一的 API 下,藉助內建的可擴充套件視覺化平臺,使用多種方法來輕鬆地比較可解釋性演算法。InterpretML 也包含了可解釋 Boosting 機(EBM)的首個實現,這是一種強大的可解釋明箱模型,可以做到與許多黑箱模型同等準確。

Lime

http://github.com/marcotcr/lime

Lime(Local interpretable model-agnostic explanations 區域性可解釋模型-不可知解釋的縮寫),Lime用於表格或圖片的解釋機器學習的分類器。Lime 能夠解釋兩個或更多類的黑盒分類器。分類器實現了一個函式,該函式接收原始文字或 numpy 陣列並輸出每個類的概率。

Dask

http://dask.org/

Dask 是一個用於平行計算的開源庫,可將 Python 包擴充套件到多臺機器上。Dask 可將資料和計算分佈在多個 GPU 上,即可在單一系統也可在多節點叢集中執行。Dask 可與 Rapids cuDF、XGBoost 和 Rapids cuML 整合,用於 GPU 加速的資料分析和機器學習。Dask還可與 NumPy、Pandas 和 Scikit-learn 整合進行並行化工作。

BlazingSQL

http://blazingsql.com/

BlazingSQL 是一個基於 Rapids 生態系統構建的 GPU 加速 SQL 引擎。BlazingSQL基於 Apache 2.0 許可證開源。BlazingSQL是cuDF的SQL介面,具有支援大規模資料科學工作流(包括提取,轉換,載入)和企業資料集的各種功能。

Rapids

http://rapids.ai/

Nvidia 的 Rapids是由英偉達開源的一款開源機器學習GPU加速平臺。Rapids 使用英偉達 CUDA 基元進行底層計算優化,通過Python 將 GPU 的並行和高頻寬記憶體以介面方式向外開放。Rapids 依賴於 Apache Arrow 柱狀記憶體格式,包括cuDF(類似 Pandas 的 DataFrame 庫);cuML(機器學習庫集合,提供 Scikit-learn 中大多數演算法的 GPU 版本);以及cuGraph(類似 NetworkX 的加速圖分析庫)。

PostHog

http://posthog.com/

PostHog 是一個為開發者構建的開源產品分析平臺。自動收集網站或應用程式上的每個事件,無需向第三方傳送資料。PostHog 提供基於使用者事件的分析,捕獲網站的使用資料,統計各使用者在網站中的具體操作。PostHog會自動捕獲點選次數和綜合瀏覽量,以分析網站使用者在做什麼,而無需手動推送事件。

LakeFS

http://lakefs.io/

LakeFS 提供了一種"像管理程式碼一樣管理資料湖"的方式,獨特引入類似Git功能來管理資料的版本。 LakeFS 可以幫助使用者建立獨立、零拷貝(Zero-copy)的資料分支,且在執行、測試和建模分析中,又不存在破壞共享物件的風險。與Git類似,LakeFS 的資料中會帶有提交記錄、元資料欄位和回滾等資訊,此外還有hooks,即在分支合併到主分支前,hooks會檢查資料,確保完整性和質量。Amazon S3 和  Azure Blob已在使用 LakeFS。                                                     

Meltano

http://meltano.com/

Meltano始於2018年GitLab的內部專案,服務於 GitLab 資料管理。2021年從GitLab獨立出來成為一個初創公司。

Meltano是一款免費 DataOps 時代的ETL工具,旨在替代替代傳統 ELT的工具,ELT是指資料提取、載入、轉換操作的統稱。

Meltano特點是開源、自託管、CLI(命令列)、可除錯和可擴充套件。

Meltano建立管道即程式碼的概念,Meltano專案可進行版本控制、程式碼審查、持續整合和部署 (CI/CD )以及容器化等。

Trino

http://trino.io/

Trino 用於大資料分析的快速分散式 SQL 查詢引擎

2019年PrestoDB的開發者建立了一個名為PrestoSQL專案分支。由於所屬基金會的轉移,PrestoSQL於2020年12月更名為 Trino。

Trino是一款用於大資料分析且效能優越的分散式 SQL 分析引擎。Trino 可同時對EB 級資料湖和海量資料倉庫進行高效查詢。Trino 符合 ANSI SQL 的查詢標準,可與 R、Tableau、Power BI、Superset 等 BI 工具配合使用。可在 Hadoop、S3、Cassandra、MySQL 的資料倉庫中聯合查詢。

StreamNative

http://streamnative.io/

StreamNative 是一款彈性部署且可擴充套件的訊息和事件流平臺,大大簡化了實時報告和分析工具以及企業應用流的資料管道架設。StreamNative 將 Apache Pulsar 分散式流處理架構與 Kubernetes 和混合雲支援等,以及企業級功能、大型資料、認證和授權、效能監控等工具相結合,既簡化了應用程式的開發,又簡化了流資料應用的部署和管理。

Hugging Face

http://huggingface.co/

Hugging Face是一個公司,也是一個網站。

Hugging Face 提供了以非常有用的深度學習資源庫,比如深度學習的模型,資料集,還有網站的使用空間的等,不過大多是要付費的。

另外Hugging Face的主要產品是聊天機器人,為此Hugging Face 開發了自己的自然語言處理 (NLP) 模型,稱為分層多工學習 (HMTL) 並在PyTorch-Transformers下管理了一個預訓練的 NPL 模型庫。

EleutherAI

http://www.eleuther.ai/

EleutherAI是一個開源的社群人工智慧專案,旨在建立一個完全去中心化的、具有自治文明的單例人工智慧。EleutherAI 專案始於 2011 年,任何能連線網際網路且有GitHub 帳戶的人都可以參與。社群成員可通過提交開發功能以或提案來參與專案。EleutherAI 的開發者每週會更新專案進度,這些更新會在 YouTube 上進行現場直播。

2021年 EleutherAI 釋出了The Pile,是一個 825GB 用於訓練的多樣化文字資料集;並在6月公佈了 GPT-J,一個 60 億引數的模型,大致相當於 OpenAI 的 GPT-3 的居里變數。隨著 GPT-NeoX 的出現,EleutherAI計劃將引數一直提高到 1750 億,發起了爭奪最大GPT-3模型的挑戰賽。

補充,OpenAI的 GPT-3 模型在文字生成方面實現了驚人的飛躍,甚至具有了人類級別的效能。但其API始終未能完全開放,目前只有 OpenAI 和微軟內部才有完全訪問全部訓練集。

Colab notebooks for generative art/Colab notebooks用於生成藝術品

首先是 OpenAI 的 CLIP(對比語言-影象預訓練)模型,一種用於生成文字和影象向量嵌入的多模態模型。雖然 CLIP 是完全開源的,但 OpenAI 的神經網路 DALL-E 卻不開源。為了彌補這一空白,Ryan Murdoch 和 Katherine Crowson 開發了 Colab notebooks,將 CLIP 與其他開源模型(如 BigGAN 和 VQGAN)結合起來,製作 Prompt-based 生成性藝術作品。這些 notebooks 基於 MIT 的開源許可證,過去幾十年間在網際網路上廣泛傳播,被重新混合、修改、轉譯,並被用來生成了驚人的藝術作品。

如果有收穫,還請 點贊、在看、轉發 ,感謝你的閱讀和支援。

留言說說你2021發現的好專案吧,留下基本介紹+(開源專案地址),期待分享,互相學習。

還可以留言說說你用過哪些,覺得有什麼優缺點,思想碰撞。