在數據庫中即時保存數據:Dataset

當我們想要在不知道最終數據庫表長什麼樣的情況下,快速收集數據並保存到數據庫中的時候,Dataset 庫將是我們的最佳選擇。Dataset 庫有一個簡單但功能強大的 API,因此我們可以很容易的把數據保存下來,之後再進行整理。

Dataset 建立在 SQLAlchemy 之上,所以如果需要對它進行擴展,你會感到非常熟悉。使用 Django 內建的 inspectdb 管理命令可以很容易地把底層數據庫模型導入 Django 中,這使得和現有數據庫一同工作不會出現任何障礙。

從網頁抓取數據:Beautiful Soup

Beautiful Soup(一般寫作 BS4)庫使得從 HTML 網頁中提取資訊變得非常簡單。當我們需要把非結構化或弱結構化的 HTML 轉換為結構化數據的時候,就需要使用 Beautiful Soup 。用它來處理 XML 數據也是一個很好的選擇,否則 XML 的可讀性或許會很差。

和 HTTP 內容打交道:Requests

當需要和 HTTP 內容打交道的時候,Requests 毫無疑問是最好的標准庫。當我們想要抓取 HTML 網頁或連接 API 的時候,都離不開 Requests 庫。同時,它也有很好的文檔。

編寫命令行工具:Click

當需要寫一個簡單的 Python 腳本作為命令行工具的時候,Click 是我最喜歡用的庫。它的 API 非常直觀,並且在實現時經過了深思熟慮,我們只需要記住很少的幾個模式。它的文檔也很優秀,這使得學習其高級特性更加容易。

對事物命名:Python Slugify

眾所周知,命名是一件困難的事情。Python Slugify 是一個非常有用的庫,它可以把一個標題或描述轉成一個帶有特性的唯一標識符。如果你正在做一個 Web 項目,並且你想要使用對搜索引擎優化友好SEO-friendly的鏈接,那麼,使用 Python Slugify 可以讓這件事變得很容易。

和插件打交道:Pluggy

Pluggy 庫相對較新,但是如果你想添加一個插件系統到現有應用中,那麼使用 Pluggy 是最好也是最簡單的方式。如果你使用過 pytest,那麼實際上相當於已經使用過 Pluggy 了,雖然你還不知道它。

把 CSV 文件轉換到 API 中:DataSette

DataSette 是一個神奇的工具,它可以很容易地把 CSV 文件轉換為全特性的只讀 REST JSON API,同時,不要把它和 Dataset 庫混淆。Datasette 有許多特性,包括創建圖表和 geo(用於創建互動式地圖),並且很容易通過容器或第三方網路主機進行部署。

處理環境變量等:Envparse

如果你不想在源代碼中保存 API 密鑰、數據庫憑證或其他敏感資訊,那麼你便需要解析環境變量,這時候 envparse 是最好的選擇。Envparse 能夠處理環境變量、ENV 文件、變量類型,甚至還可以進行預處理和後處理(例如,你想要確保變量名總是大寫或小寫的)。

有什麼你最喜歡的用於業余項目的 Python 庫不在這個列表中嗎?歡迎在評論中和我們一起分享一起學習。