2021 年年度最佳開源軟件!

語言: CN / TW / HK

爭做團隊核心程序員,關注「 幽鬼

來自:今日頭條,作者:風吹草低見到喜洋洋

鏈接:https://www.toutiao.com/a7028029253035770371/

Svelte

https://svelte.dev/

Svelte 是一種全新的構建用户界面的方法。傳統框架如 React 和 Vue 在瀏覽器中需要做大量的工作,而 Svelte 將這些工作放到構建應用程序的編譯階段來處理。

與使用虛擬(virtual)DOM 差異對比不同。Svelte 編寫的代碼在應用程序的狀態更改時就能像做外科手術一樣更新 DOM。

Minikube

https://minikube.sigs.k8s.io/

Minikube 可以在本地單機上運行Kubernetes集羣的工具。Minikube可跨平台工作,不需要虛擬機,不需要在MacOS或Windows上安裝Linux。支持多種容器,如Docker,CRI-O,Containerd等。

Pixie

https://px.dev

Pixie是查看Kubernetes的工具。可查看Kubernetes集羣的狀態,比如,服務器集羣性能,網絡狀況,集羣資源 以及 相關應用程序等。 還可以查看更詳細的內容,比如,pod狀態,請求量,熱點圖等。 Pixie的資源佔用僅有5%左右。

FastAPI

https://fastapi.tiangolo.com/

FastAPI是一個Python網頁框架。FastAPI以其高效、易用贏得了開發者的青睞,直接挑戰了Django和Flash的傳統地位。FastAPI的優點是,類型檢查、自動 swagger UI、支持異步、強大的依賴注入。

Crystal

https://crystal-lang.org/

Crystal已經面試很多年了,Crystal的特點是兼具C語言的高效和Ruby的靜態類型。今年初已經發布了1.0版本,目前最新版本為1.2.1,已經足夠穩定。

Microsoft Terminal

https://github.com/Microsoft/Terminal

Microsoft Terminal 是一個開源的Windows的終端,提供類似Mac和Linux命令行的體驗。Microsoft Terminal具有GPU加速渲染,較傳統控制枱具有更好的性能提升。

OBS Studio

https://obsproject.com/

OBS Studio 是一款用於直播和屏幕錄製的軟件,為高效捕獲,合成,編碼,記錄和流傳輸視頻內容而設計,支持所有流媒體平台。快捷鍵可讓試圖平滑切換,甚至還有畫中畫和實時字幕的新功能。

Shotcut

https://shotcut.org/

Shotcut是一個強大的視頻編輯工具。Shotcut具有中文版支持,可在Windows,MacOS,Linux,BSD等操作系統上運行,Shotcut具有數百種音頻、視頻格式,以及編解碼器,且無需導入,可直接編輯。

Weave GitOps

https://github.com/weaveworks/weave-gitops

Weave GitOps 是一個GitOps工具。其目的是簡化DevOps的工作流程,通過聲明配置使Kubernetes更加穩定和安全。Weave GitOps 基於 雲原生基金會的 Flux。

Apache Solr

https://solr.apache.org/

Apache Solr 是基於 Lucene 的全文搜索服務器,也是最流行的企業級搜索引擎。Solr 放棄了開源的許可證,不過現在仍然是免費的。Solr 可集羣部署、可在雲端部署,甚至包括 LTR 算法,可自動調整加權結果。

MLflow

https://mlflow.org/

MLflow 是由 Apache Spark 技術團隊開源的一個機器學習平台。MLflow 由 Databricks 創建,並由 Linux 基金會託管,是一個 MLOps 平台,可讓用户跟蹤、管理和維護各種機器學習模型、實驗及其部署。MLflow提供了記錄和查詢實驗(代碼、數據、配置、結果)的工具,將數據科學代碼打包成項目,並將這些項目接入工作流程。

Orange

https://orangedatamining.com/

Orange 是一款用於開源機器學習和數據可視化的工具。Orange與 R Studio 和 Jupyter等程序化或文本工具相比,Orange 更直觀易操作。Orange 包含了完整的一系列的組件以進行數據預處理,並提供了數據賬目,過渡,建模,模式評估和勘探的功能。

Flutter

https://flutter.dev/

Flutter是谷歌推出的一個新用於構建跨平台的手機、網頁、桌面,嵌入式設備應用的SDK。Flutter 的組件,比如,滾動條、導航、圖標和字體,整合了IOS和安卓平台的差異。

Apache Superset

https://github.com/apache/superset

Apache Superset是一個現代的、輕量級可視化BI分析工具。Apache Superset在可視化、易用性和交互性上非常有特色,用户可以輕鬆對數據進行可視化分析。而且Apache Superset 已經達到企業級商業軟件的水平。

Presto

https://prestodb.io/

Presto 是一個開源的分佈式 SQL 引擎,用於集羣中的在線分析處理。Presto 可以查詢各種各樣的數據源,從文件到數據庫,並將結果輸出到BI和分析環境。更重要的是,Presto 可以在 Hive、Cassandra、關係型數據庫中進行查詢,而且Presto 還可以結合多個來源的數據查詢。

臉書、Uber、推特和阿里巴巴創立了 Presto 基金會。其他成員現在包括 Alluxio、Ahana、Upsolver 和英特爾。

Apache Arrow

https://arrow.apache.org/

Apache Arrow 是一個列式內存分析層,旨在為CPU和GPU上加速大數據的分析。它包含了一套平面和分層數據的典型內存表示,Arrow 內存格式支持零拷貝讀取,並且不必序列化的情況下訪問數據極快。目前Apache Arrow支持的語言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。

InterpretML

https://interpret.ml/

InterpretML是微軟推出的可解釋機器學習包。其中包含了幾個最先進的機器學習可解釋性技術。InterpretML提供了兩類解釋性類型:明箱(glassbox) 模型和黑箱(blackbox)模型。InterpretML 可讓實踐者通過在一個統一的 API 下,藉助內置的可擴展可視化平台,使用多種方法來輕鬆地比較可解釋性算法。InterpretML 也包含了可解釋 Boosting 機(EBM)的首個實現,這是一種強大的可解釋明箱模型,可以做到與許多黑箱模型同等準確。

Lime

https://github.com/marcotcr/lime

Lime(Local interpretable model-agnostic explanations 局部可解釋模型-不可知解釋的縮寫),Lime用於表格或圖片的解釋機器學習的分類器。Lime 能夠解釋兩個或更多類的黑盒分類器。分類器實現了一個函數,該函數接收原始文本或 numpy 數組並輸出每個類的概率。

Dask

https://dask.org/

Dask 是一個用於並行計算的開源庫,可將 Python 包擴展到多台機器上。Dask 可將數據和計算分佈在多個 GPU 上,即可在單一系統也可在多節點集羣中運行。Dask 可與 Rapids cuDF、XGBoost 和 Rapids cuML 集成,用於 GPU 加速的數據分析和機器學習。Dask還可與 NumPy、Pandas 和 Scikit-learn 集成進行並行化工作。

BlazingSQL

https://blazingsql.com/

BlazingSQL 是一個基於 Rapids 生態系統構建的 GPU 加速 SQL 引擎。BlazingSQL基於 Apache 2.0 許可證開源。BlazingSQL是cuDF的SQL接口,具有支持大規模數據科學工作流(包括提取,轉換,加載)和企業數據集的各種功能。

Rapids

https://rapids.ai/

Nvidia 的 Rapids是由英偉達開源的一款開源機器學習GPU加速平台。Rapids 使用英偉達 CUDA 基元進行底層計算優化,通過Python 將 GPU 的並行和高帶寬內存以接口方式向外開放。Rapids 依賴於 Apache Arrow 柱狀內存格式,包括cuDF(類似 Pandas 的 DataFrame 庫);cuML(機器學習庫集合,提供 Scikit-learn 中大多數算法的 GPU 版本);以及cuGraph(類似 NetworkX 的加速圖分析庫)。

PostHog

https://posthog.com/

PostHog 是一個為開發者構建的開源產品分析平台。自動收集網站或應用程序上的每個事件,無需向第三方發送數據。PostHog 提供基於用户事件的分析,捕獲網站的使用數據,統計各用户在網站中的具體操作。PostHog會自動捕獲點擊次數和綜合瀏覽量,以分析網站用户在做什麼,而無需手動推送事件。

LakeFS

https://lakefs.io/

LakeFS 提供了一種"像管理代碼一樣管理數據湖"的方式,獨特引入類似Git功能來管理數據的版本。 LakeFS 可以幫助用户創建獨立、零拷貝(Zero-copy)的數據分支,且在運行、測試和建模分析中,又不存在破壞共享對象的風險。與Git類似,LakeFS 的數據中會帶有提交記錄、元數據字段和回滾等信息,此外還有hooks,即在分支合併到主分支前,hooks會檢查數據,確保完整性和質量。Amazon S3 和  Azure Blob已在使用 LakeFS。                                                     

Meltano

https://meltano.com/

Meltano始於2018年GitLab的內部項目,服務於 GitLab 數據管理。2021年從GitLab獨立出來成為一個初創公司。

Meltano是一款免費 DataOps 時代的ETL工具,旨在替代替代傳統 ELT的工具,ELT是指數據提取、加載、轉換操作的統稱。

Meltano特點是開源、自託管、CLI(命令行)、可調試和可擴展。

Meltano創建管道即代碼的概念,Meltano項目可進行版本控制、代碼審查、持續集成和部署 (CI/CD )以及容器化等。

Trino

https://trino.io/

Trino 用於大數據分析的快速分佈式 SQL 查詢引擎

2019年PrestoDB的開發者創建了一個名為PrestoSQL項目分支。由於所屬基金會的轉移,PrestoSQL於2020年12月更名為 Trino。

Trino是一款用於大數據分析且性能優越的分佈式 SQL 分析引擎。Trino 可同時對EB 級數據湖和海量數據倉庫進行高效查詢。Trino 符合 ANSI SQL 的查詢標準,可與 R、Tableau、Power BI、Superset 等 BI 工具配合使用。可在 Hadoop、S3、Cassandra、MySQL 的數據倉庫中聯合查詢。

StreamNative

https://streamnative.io/

StreamNative 是一款彈性部署且可擴展的消息和事件流平台,大大簡化了實時報告和分析工具以及企業應用流的數據管道架設。StreamNative 將 Apache Pulsar 分佈式流處理架構與 Kubernetes 和混合雲支持等,以及企業級功能、大型數據、認證和授權、性能監控等工具相結合,既簡化了應用程序的開發,又簡化了流數據應用的部署和管理。

Hugging Face

https://huggingface.co/

Hugging Face是一個公司,也是一個網站。

Hugging Face 提供了以非常有用的深度學習資源庫,比如深度學習的模型,數據集,還有網站的使用空間的等,不過大多是要付費的。

另外Hugging Face的主要產品是聊天機器人,為此Hugging Face 開發了自己的自然語言處理 (NLP) 模型,稱為分層多任務學習 (HMTL) 並在PyTorch-Transformers下管理了一個預訓練的 NPL 模型庫。

EleutherAI

https://www.eleuther.ai/

EleutherAI是一個開源的社區人工智能項目,旨在創建一個完全去中心化的、具有自治文明的單例人工智能。EleutherAI 項目始於 2011 年,任何能連接互聯網且有GitHub 帳户的人都可以參與。社區成員可通過提交開發功能以或提案來參與項目。EleutherAI 的開發者每週會更新項目進度,這些更新會在 YouTube 上進行現場直播。

2021年 EleutherAI 發佈了The Pile,是一個 825GB 用於訓練的多樣化文本數據集;並在6月公佈了 GPT-J,一個 60 億參數的模型,大致相當於 OpenAI 的 GPT-3 的居里變量。隨着 GPT-NeoX 的出現,EleutherAI計劃將參數一直提高到 1750 億,發起了爭奪最大GPT-3模型的挑戰賽。

補充,OpenAI的 GPT-3 模型在文本生成方面實現了驚人的飛躍,甚至具有了人類級別的性能。但其API始終未能完全開放,目前只有 OpenAI 和微軟內部才有完全訪問全部訓練集。

Colab notebooks for generative art/Colab notebooks用於生成藝術品

首先是 OpenAI 的 CLIP(對比語言-圖像預訓練)模型,一種用於生成文本和圖像矢量嵌入的多模態模型。雖然 CLIP 是完全開源的,但 OpenAI 的神經網絡 DALL-E 卻不開源。為了彌補這一空白,Ryan Murdoch 和 Katherine Crowson 開發了 Colab notebooks,將 CLIP 與其他開源模型(如 BigGAN 和 VQGAN)結合起來,製作 Prompt-based 生成性藝術作品。這些 notebooks 基於 MIT 的開源許可證,過去幾十年間在互聯網上廣泛傳播,被重新混合、修改、轉譯,並被用來生成了驚人的藝術作品。

如果有收穫,還請 點贊、在看、轉發 ,感謝你的閲讀和支持。

留言説説你2021發現的好項目吧,留下基本介紹+(開源項目地址),期待分享,互相學習。

還可以留言説説你用過哪些,覺得有什麼優缺點,思想碰撞。