Pythonè£½ETLã€Œdltã€ã‚’é¸ã‚“ã è©± - Azure Cosmos DB for PostgreSQL Ã— Container App Jobã§ã„ã„æ„Ÿã˜ã«Datalakeã‚’æ§‹ç¯‰ã™ã‚‹

ã“ã‚“ã«ã¡ã¯ã€‚LayerX Ai Workforceäº‹æ¥éƒ¨ã§SREã‚’ã—ã¦ã„ã¾ã™ @shinyorkeï¼ˆã—ã‚“ã‚ˆãƒ¼ãï¼‰ã¨ç”³ã—ã¾ã™ã€‚

æœ€è¿‘ã¯Ai Workforceã®ãƒ‡ãƒ¼ã‚¿å‘¨ã‚Šã®åŸºç›¤ã‚’ä½œã‚‹ä»•äº‹ã‚’ã—ãªãŒã‚‰ã€å€‹äººã¨ã—ã¦ã¯é‡Žçƒè§£èª¬AI Agentã®é–‹ç™ºã‚’é ‘å¼µã£ã¦ã„ã¾ã™ã€‚

æœ¬ãƒ–ãƒã‚°ã§ã¯ã€Ai Workforceã®ãƒ‡ãƒ¼ã‚¿å‘¨ã‚Šã®åŸºç›¤ã®ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆã®ä¸€éƒ¨ã§ã‚ã‚‹ELTã®é¸å®šã‚’ã©ã†ã—ãŸã‹ã«ã¤ã„ã¦åŸ·ç†ã—ã¾ã™ã€‚

ç‰¹ã«ä»Šå›žã¯ã€

ãƒžãƒãƒ¼ã‚¸ãƒ‰ã‚µãƒ¼ãƒ“ã‚¹ï¼ˆAzure Data Factoryã€é€šç§°ADFï¼‰ã§ã®æ§‹ç¯‰ãƒ»å®Ÿè£…ã‚’æ¤œè¨Žã—ã¦ã„ãŸãŒ ãªãœæ–å¿µã—ãŸã®ã‹
ADF ã®ä»£æ›¿ã¨ã—ã¦ dlt + Container App Job ã‚’é¸ã‚“ã çµŒç·¯ã¨ã€å®Ÿéš›ã©ã†ã ã£ãŸã‹
Azure Cosmos DB for PostgreSQL ã® Read Replica ã‚’ç›¸æ‰‹ã«ã—ãŸã¨ãã« ãƒãƒžã£ãŸç‚¹ã¨å¯¾ç–

ã‚’ä¸å¿ƒã«å…±æœ‰ã§ãã‚Œã°ã¨æ€ã„ã¾ã™ã€‚

ãªãŠã€ä»¥ä¸‹ã«ã¤ã„ã¦ã¯æœ¬ãƒ–ãƒã‚°ã®ã‚¹ã‚³ãƒ¼ãƒ—å¤–ã¨ã•ã›ã¦ã‚‚ã‚‰ãˆã‚Œã°ã¨æ€ã„ã¾ã™ã€‚

ãƒ‡ãƒ¼ã‚¿åŸºç›¤æ§‹ç¯‰ãƒ»é‹ç”¨ã®å…·ä½“
ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦ä½•ã‚’ã™ã‚‹ã‹
ãã®ä»–ã€Ai Workforceã®ç‰¹å®šã®æ©Ÿèƒ½ã‚„æ¥å‹™ã«é–¢ã™ã‚‹è¨€åŠ

TL;DR

dltï¼ˆdata load toolï¼‰ã¯ã€ŒPythonã§æ›¸ãã ã‘ã€ã®ã‚·ãƒ³ãƒ—ãƒ«ã•ãŒå¼·ã¿ã€‚ SQLAlchemy ã¨çµ„ã¿åˆã‚ã›ã‚‹ã ã‘ã§ PostgreSQL â†’ Parquet â†’ Azure Blob ãŒå®Œçµã™ã‚‹&Container App Jobã¨ã®ç›¸æ€§ãŒè‰¯ã„ã€‚
ADF + Self-hosted IR ã¯é‹ç”¨è¤‡é›‘æ€§ãŒé«˜ãã€Private æŽ¥ç¶šç’°å¢ƒã§ã¯å°Žå…¥ã«è¦šæ‚ŸãŒå¿…è¦ã€‚
Cosmos DB for PostgreSQLã® Read Replica çµŒç”±ã®é€£æºã«è¦æ³¨æ„ã€‚ Server-side Cursorã¨ã® WAL ç«¶åˆã€NullPool ã®å¿…è¦æ€§ã€OOM å¯¾ç–ãªã©ã€ã‚„ã£ã¦ã‹ã‚‰æ°—ãŒã¤ããƒã‚¤ãƒ³ãƒˆãŒè¤‡æ•°ã€‚

ç›®æ¬¡

ãƒžãƒãƒ¼ã‚¸ãƒ‰ã‚µãƒ¼ãƒ“ã‚¹ï¼ˆADFï¼‰ã‚’æ¤œè¨Žã—ãŸãŒè¦‹é€ã£ãŸ

æœ€åˆã®è¨è¨ˆã§ã¯ Azure Data Factoryï¼ˆADFï¼‰+ Self-hosted Integration Runtimeï¼ˆSHIRï¼‰ ã®çµ„ã¿åˆã‚ã›ã§å®Ÿè£…ã—ã‚ˆã†ã¨ã—ã¦ã„ã¾ã—ãŸã€‚

ADF ã¯ Azure ãƒã‚¤ãƒ†ã‚£ãƒ–ã®ãƒ‡ãƒ¼ã‚¿çµ±åˆã‚µãƒ¼ãƒ“ã‚¹ã§ã€GUIã§ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã‚’çµ„ã‚ã¦ã‚¨ãƒ³ã‚¿ãƒ¼ãƒ—ãƒ©ã‚¤ã‚ºå‘ã‘ã®æ©Ÿèƒ½ã‚‚å……å®Ÿã—ã¦ã„ã¾ã™ã€‚

æœ€åˆã¯ã“ã‚Œã§ã‚¤ã‚±ã‚‹ã‚„ã‚...ã¨è€ƒãˆã¾ã—ãŸãŒã€ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ§‹æˆä¸Šã€ãƒ—ãƒ©ã‚¤ãƒ™ãƒ¼ãƒˆã«ã‚„ã‚ŠãŸã„ï¼ˆL4ãƒ¬ãƒ™ãƒ«ï¼‰ã¨ã„ã†è¦ä»¶ã‚’æº€ãŸãã†ã¨ã—ã¦ç ´ç¶»ã—ã¾ã—ãŸã€‚

ã“ã®è¦ä»¶ï¼ˆPrivate æŽ¥ç¶šç’°å¢ƒï¼‰ã§ä½¿ã†å ´åˆã«ã¯ Self-hosted IRï¼ˆSHIRï¼‰ ã¨ã„ã†ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆã‚’è‡ªå‰ã§ç«‹ã¦ã‚‹å¿…è¦ãŒã‚ã‚‹ã®ã§ã™ãŒä»¥ä¸‹ã®èª²é¡ŒãŒã‚ã‚Šè¦‹é€ã‚‹ã“ã¨ã«ã—ã¾ã—ãŸã€‚

èª²é¡Œ	å†…å®¹
Managed PE ã®åˆ¶ç´„	ADF ã® Managed PE ã¯ä½¿ãˆãšã€SHIR çµŒç”±ã¨ãªã‚‹ãŸã‚æŽ¥ç¶šè¨è¨ˆãŒè¤‡é›‘åŒ–
ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆæ•°ã®å¤šã•	ADF / SHIR / Linked Service / Pipeline ã¨ç®¡ç†å¯¾è±¡ãŒå¤šãã€éšœå®³æ™‚ã®åˆ‡ã‚Šåˆ†ã‘ãŒå¤§å¤‰
SHIR ã®çŠ¶æ…‹ç®¡ç†	VMã˜ã‚ƒãªã„ã¨SHIRãŒä½¿ãˆãªã„ãŸã‚å¸¸æ™‚èµ·å‹•ãŒå¿…è¦ã€‚ã‚¤ãƒ¡ãƒ¼ã‚¸ã‚¿ã‚°å›ºå®šãƒ»ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ãƒ—ãƒ¬ãƒ¼ãƒ³åˆ°é”æ€§ãªã©éšœå®³é¢ãŒå¤šã„
ãƒ©ãƒ³ãƒ‹ãƒ³ã‚°ã‚³ã‚¹ãƒˆ	SHIR ç”¨ VM ãŒå¸¸æ™‚èµ·å‹•ã®ãŸã‚ã‚³ã‚¹ãƒˆãŒç™ºç”Ÿã—ç¶šã‘ã‚‹

æ˜Žç¢ºãªKnockout Factorã¯ã€ŒManaged PEï¼ˆPrivate Endpointï¼‰ ã®åˆ¶ç´„ã€ã§ã™ã€‚ã“ã“ãŒã§ããªã„ã¨ã‚ã‹ã‚Šè©°ã¿ã¾ã—ãŸã€‚

è¦ã™ã‚‹ã«ã€Œã‚·ãƒ³ãƒ—ãƒ«ãªæ—¥æ¬¡ãƒãƒƒãƒã‚’ã‚„ã‚ŠãŸã„ã ã‘ãªã®ã«ã€ç¶æŒã™ã‚‹ã‚‚ã®ãŒå¤šã™ãŽã‚‹ã€ã¨ã„ã†çŠ¶æ…‹ã«ãªã£ã¦ã—ã¾ã„ã¾ã—ãŸã€‚

ã€ŒBlob dump ã‚’ä¸å¿ƒã« DWH ãŒå‚ç…§ã™ã‚‹ç–Žçµåˆæ§‹æˆã€ã¨ã„ã†è¦ä»¶ã«å¯¾ã—ã¦å®Ÿè£…çµŒè·¯ãŒé‡ã„

ã¨ã„ã†ã®ãŒæ£ç›´ãªæ‰€æ„Ÿã§ã—ãŸã€‚ãã“ã§ PoC ã‚’çµŒã¦ ADF + SHIR ã‚’å»ƒæ¢ã—ã€dlt + Container App Job ã«ç½®ãæ›ãˆã‚‹ ã¨ã„ã†åˆ¤æ–ã‚’ã—ã¾ã—ãŸã€‚

dlt ã¨ã¯ä½•ã‹

dltï¼ˆdata load toolï¼‰ ã¯ã€Pythonã§æ›¸ã‘ã‚‹ã‚ªãƒ¼ãƒ—ãƒ³ã‚½ãƒ¼ã‚¹ã® ETL ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã™ã€‚

dlthub.com

ä¸€è¨€ã§è¨€ã†ã¨ ã€ŒPythonã§ãƒ‡ãƒ¼ã‚¿ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã‚’ã„ã„æ„Ÿã˜ã«æ›¸ã‘ã‚‹ãƒ„ãƒ¼ãƒ«ã€ ã§ã™ã€‚

ç‰¹å¾´ã‚’æŒ™ã’ã‚‹ã¨ã€

ãƒ‡ãƒ¼ã‚¿ã®ç§»å‹•ã‚„èªã¿è¾¼ã¿ã‚’ã‚·ãƒ³ãƒ—ãƒ«ã«è¡Œãˆã‚‹ã‚ªãƒ¼ãƒ—ãƒ³ã‚½ãƒ¼ã‚¹ã®Pythonãƒ©ã‚¤ãƒ–ãƒ©ãƒªã€‚
ç‰¹å®šã®ãƒãƒƒã‚¯ã‚¨ãƒ³ãƒ‰ç’°å¢ƒã‚’å¿…é ˆã¨ã—ãªã„ä¸€æ–¹ã§ã€ã‚³ãƒ³ãƒ†ãƒŠç’°å¢ƒä¸Šã§ã‚‚Pythonã‚³ãƒ¼ãƒ‰ã¨ã—ã¦æŸ”è»Ÿã«çµ„ã¿è¾¼ã‚“ã§å‹•ã‹ã™ã“ã¨ãŒã§ãã‚‹
Amazon S3ä¸Šã®CSVãƒ•ã‚¡ã‚¤ãƒ«ã‚„å„ç¨®REST APIã‹ã‚‰ãƒ‡ãƒ¼ã‚¿ã‚’èªã¿è¾¼ã¿ã€DuckDBã‚„Snowflakeã¨ã„ã£ãŸå…·ä½“çš„ãªãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã‚„ãƒ‡ãƒ¼ã‚¿ã‚¦ã‚§ã‚¢ãƒã‚¦ã‚¹ã¸ã€æ•´ç†ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¨ã—ã¦ç›´æŽ¥ä¿å˜ã™ã‚‹ã“ã¨ãŒã§ãã‚‹

äº‹ãŒæŒ™ã’ã‚‰ã‚Œã¾ã™ã€‚ä»Šå›žã‚„ã‚ŠãŸã‹ã£ãŸã“ã¨ãŒã€

Azure Cosmos DB for PostgreSQLä¸Šã®ãƒ‡ãƒ¼ã‚¿ã‚’Parquetå½¢å¼ã§Blob Storageã«å‡ºåŠ›
ä¸Šè¨˜ã®å‡¦ç†ã‚’Read Replicaã‹ã‚‰æ—¥æ¬¡ã§å®Ÿè¡Œ
Azure Container Appã‚’ä½¿ã„ãŸã‹ã£ãŸã®ã§Docker ContaineråŒ–ã™ã‚‹

ã§ã‚ã£ãŸã®ã§æ£ã«ã†ã£ã¦ã¤ã‘ã®å˜åœ¨ã§ã—ãŸ*1ã€‚

ãªãŠã€ä»Šå›žã®æ§‹æˆã§ã¯ã€ä»¥ä¸‹ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’çµ„ã¿åˆã‚ã›ã¦ä½¿ã„ã¾ã—ãŸã€‚

ãƒ©ã‚¤ãƒ–ãƒ©ãƒª	å½¹å‰²
`dlt[filesystem,parquet,az]`	æŠ½å‡ºãƒ»ãƒãƒ¼ãƒ‰åˆ¶å¾¡ãƒ»Parquet å‡ºåŠ›ãƒ»Azure Blob æ›¸ãè¾¼ã¿
`sqlalchemy` + `psycopg`	PostgreSQL æŽ¥ç¶š
`pyarrow`	Parquet å¤‰æ›
`adlfs`	Azure Blob Storage ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ

ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£æ¦‚è¦

å…¨ä½“ã®æ§‹æˆã¯ä»¥ä¸‹ã®ã¨ãŠã‚Šã§ã™ã€‚

dltã‚’ä½¿ã£ãŸetlãŠã‚ˆã³datalakeã‹ã‚‰DWHï¼ˆsnowflakeï¼‰ã¸ã®æµã‚Œ â€»Nano Bananaã«ã‚ˆã‚‹ä½œå›³

Container App Job ã‚’æŽ¡ç”¨ã—ãŸã®ã¯ã€ã€Œæ—¥æ¬¡ãƒãƒƒãƒã€ã¨ã„ã†è¦ä»¶ã«å¯¾ã—ã¦ã€Œèµ·å‹•â†’å®Ÿè¡Œâ†’çµ‚äº†ã€ã¨ã„ã†ã‚µã‚¤ã‚¯ãƒ«ãŒè‡ªç„¶ã«ã¯ã¾ã‚‹ã‹ã‚‰ã§ã™ã€‚SHIR ã®ã‚ˆã†ã«å¸¸æ™‚èµ·å‹•ã™ã‚‹å¿…è¦ãŒãªãã€å®Ÿè¡Œæ™‚ã®ã¿ãƒªã‚½ãƒ¼ã‚¹ã‚’æ¶ˆè²»ã—ã¾ã™ã€‚ã‚³ã‚¹ãƒˆãƒ»é‹ç”¨ã®ä¸¡é¢ã§ã‚·ãƒ³ãƒ—ãƒ«ã§ã™ã€‚

Blob ä¸Šã®ãƒ•ã‚¡ã‚¤ãƒ«ãƒ¬ã‚¤ã‚¢ã‚¦ãƒˆã¯ã“ã®ã‚ˆã†ã«ãªã£ã¦ã„ã¾ã™ã€‚

snowflake-stage/
  raw/
    <table_name>/
      <load_id>.<hash>.parquet   â† å®Ÿè¡Œå‰ã«æ—§ãƒ•ã‚¡ã‚¤ãƒ«å‰Šé™¤â†’æ–°è¦æ›¸ãè¾¼ã¿
    _dlt_loads/
    _dlt_pipeline_state/

ã€Œå¸¸ã«æœ€æ–°ã®å®Œå…¨ã‚³ãƒ”ãƒ¼ã€ ã‚’ Snowflake ã‹ã‚‰å‚ç…§ã™ã‚‹ã‚·ãƒ³ãƒ—ãƒ«ãªè¨è¨ˆã§ã€æ—¥ä»˜ãƒ‘ãƒ¼ãƒ†ã‚£ã‚·ãƒ§ãƒ³ã¯æŒã¡ã¾ã›ã‚“ã€‚

ã“ã®æ§‹æˆã§ã„ã„æ„Ÿã˜ã«å‹•ã‹ã™ã“ã¨ãŒã§ãã¾ã—ãŸã€‚

å®Ÿè£…ã®è©³ç´°ã¨ãƒãƒžã‚Šãƒã‚¤ãƒ³ãƒˆ

ã“ã“ã¯é‡ç®±ã®éš…ã‚’ã¤ã¤ãã‚ˆã†ãªTipsã§ã™ã€‚

Cosmos DB for PostgreSQL ã® Read Replica ã‚’ç›¸æ‰‹ã«ã™ã‚‹ã¨ç‹¬ç‰¹ã®ãƒãƒžã‚Šã©ã“ã‚ãŒã‚ã‚Šã¾ã™ã€‚

NullPool ã¯å¿…é ˆ

dlt ã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§è¤‡æ•°ãƒ†ãƒ¼ãƒ–ãƒ«ã‚’ä¸¦åˆ— fetch ã—ã¾ã™ã€‚SQLAlchemy ã®ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆæŽ¥ç¶šãƒ—ãƒ¼ãƒ«ã§ã‚ã‚‹ QueuePoolï¼ˆsize=5, overflow=10ï¼‰ã‚’ä½¿ã†ã¨ã€ä¸¦åˆ—ã‚³ãƒã‚¯ã‚·ãƒ§ãƒ³ä¸Šé™ã‚’è¶…ãˆã¦ã‚¿ã‚¤ãƒ ã‚¢ã‚¦ãƒˆãŒç™ºç”Ÿã—ã¾ã™ã€‚

è§£æ±ºç–ï¼šNullPool ã‚’ä½¿ã†

from sqlalchemy.pool import NullPool
import sqlalchemy as sa

engine = sa.create_engine(pg_url, poolclass=NullPool)

NullPool ã¯ connect() ã®ãŸã³ã«ç‹¬ç«‹ã—ãŸç‰©ç†ã‚³ãƒã‚¯ã‚·ãƒ§ãƒ³ã‚’ç”Ÿæˆã—ã€close() ã§å³åˆ‡æ–ã—ã¾ã™ã€‚ãƒãƒƒãƒã‚¸ãƒ§ãƒ–ã§ã‚³ãƒã‚¯ã‚·ãƒ§ãƒ³å†åˆ©ç”¨ãŒä¸è¦ãªå ´åˆã€ã“ã‚ŒãŒä¸€ç•ªã‚·ãƒ³ãƒ—ãƒ«ã§ç¢ºå®Ÿã§ã™ã€‚

Read Replica ã® WAL ç«¶åˆå•é¡Œ

æ¬¡ã®ãƒãƒžã‚Šã©ã“ã‚ã¯ã€Server-side Cursor ã¨ã® WALç«¶åˆ *2ã§ã™ã€‚

dlt + SQLAlchemy ã®çµ„ã¿åˆã‚ã›ã§ã¯ã€å¤§é‡ãƒ‡ãƒ¼ã‚¿ã®ã‚¹ãƒˆãƒªãƒ¼ãƒŸãƒ³ã‚°å–å¾—ã« stream_results=True ã‚’ä½¿ã„ãŸããªã‚Šã¾ã™ï¼ˆpsycopg3 ã® ServerCursor / DECLARE CURSOR ã«ç›¸å½“ï¼‰ã€‚ã¨ã“ã‚ãŒã€Cosmos DB for PostgreSQLã® Read Replica ã§ã“ã‚Œã‚’ä½¿ã†ã¨ SSL æŽ¥ç¶šãŒå¼·åˆ¶åˆ‡æ–ã•ã‚Œã¾ã™ã€‚

OperationalError: SSL connection closed unexpectedly

åŽŸå› ã¯ Read Replica ã® WAL é©ç”¨ã¨ã®ç«¶åˆã§ã™ã€‚ãƒžãƒãƒ¼ã‚¸ãƒ‰ã‚µãƒ¼ãƒ“ã‚¹ã®åˆ¶ç´„ä¸Šã€ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã§ãã‚‹ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã«é™ã‚ŠãŒã‚ã‚‹ãŸã‚ã€ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆå´ï¼ˆdltã®ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³å†…ï¼‰ã§ã®å›žé¿ãŒå¿…è¦ã§ã—ãŸã€‚*3

è§£æ±ºç–ï¼šyield_per ã®ã¿ã‚’ä½¿ã†

stmt = sa.select(table).execution_options(yield_per=10000)

yield_per ã‚’æŒ‡å®šã™ã‚‹ã“ã¨ã§ DECLARE CURSOR ã‚’ä½¿ã‚ãšã« fetchmany() ç›¸å½“ã®ãƒãƒ£ãƒ³ã‚¯å˜ä½ã§çµæžœã‚’å–å¾—ã§ãã¾ã™ã€‚WAL ç«¶åˆã‚’å›žé¿ã—ã¤ã¤ã€ãƒ¡ãƒ¢ãƒªåŠ¹çŽ‡ã‚‚ä¿ã¦ã¾ã™ã€‚

OOM å¯¾ç–ï¼šãƒ†ãƒ¼ãƒ–ãƒ«ãƒãƒƒãƒåˆ†å‰² + åãƒ—ãƒã‚»ã‚¹åŒ–

yield_per ã‚’ä½¿ã£ã¦ã‚‚ã€ãƒ†ãƒ¼ãƒ–ãƒ«å…¨ä½“ã‚’é †æ¬¡èªã¿åˆ‡ã‚‹ç‚¹ã¯å¤‰ã‚ã‚Šã¾ã›ã‚“ã€‚ãƒ†ãƒ¼ãƒ–ãƒ«ãŒå¤§ãã‹ã£ãŸã‚Šæ•°ãŒå¤šã‹ã£ãŸã‚Šã™ã‚‹ã¨ã€ãƒ—ãƒã‚»ã‚¹ã®ãƒ¡ãƒ¢ãƒªãŒç©ã¿ä¸ŠãŒã£ã¦ OOMï¼ˆOut of Memoryï¼‰ãŒç™ºç”Ÿã—ã¾ã™ã€‚

ã“ã‚Œã‚’é˜²ããŸã‚ã«ã€ä»¥ä¸‹ã®3ã¤ã‚’çµ„ã¿åˆã‚ã›ã¾ã—ãŸã€‚

1. workers=1ï¼ˆåŒæ™‚å‡¦ç†ãƒ†ãƒ¼ãƒ–ãƒ«æ•°ã‚’1ã«çµžã‚‹ï¼‰

pipeline.extract(source, write_disposition="replace", workers=1)

2. BATCH_COUNT ã«ã‚ˆã‚‹åˆ†å‰²å‡¦ç†

å…¨ãƒ†ãƒ¼ãƒ–ãƒ«ã‚’ N å€‹ã®ãƒãƒƒãƒã«åˆ†å‰²ã—ã¦é †æ¬¡å‡¦ç†ã—ã¾ã™ã€‚ç’°å¢ƒå¤‰æ•° BATCH_COUNTï¼ˆãƒ‡ãƒ•ã‚©ãƒ«ãƒˆ5ï¼‰ã§åˆ¶å¾¡ã—ã¦ã„ã¾ã™ã€‚

3. multiprocessing.spawn ã§åãƒ—ãƒã‚»ã‚¹åŒ–

ctx = multiprocessing.get_context("spawn")
proc = ctx.Process(target=run_batch, args=(batch,))
proc.start()
proc.join()

engine.dispose() ã¯ã‚³ãƒã‚¯ã‚·ãƒ§ãƒ³ã¯è§£æ”¾ã—ã¾ã™ãŒã€Python ãƒ’ãƒ¼ãƒ—ã¯è§£æ”¾ã—ã¾ã›ã‚“ã€‚åãƒ—ãƒã‚»ã‚¹ã‚’ spawn ã—ã¦çµ‚äº†ã•ã›ã‚‹ã“ã¨ã§ã€OS ãƒ¬ãƒ™ãƒ«ã§ RAM ã‚’ç¢ºå®Ÿã«å›žåŽ ã§ãã¾ã™ã€‚

fork ã§ã¯ãªã spawn ã‚’ä½¿ã†ç‚¹ãŒãƒã‚¤ãƒ³ãƒˆã§ã™ã€‚fork ã ã¨è¦ªãƒ—ãƒã‚»ã‚¹ã®ãƒ¡ãƒ¢ãƒªãŒå¼•ãç¶™ãŒã‚Œã¦ã—ã¾ã†ãŸã‚ã€OOM å¯¾ç–ã¨ã—ã¦ä¸å®Œå…¨ã«ãªã‚Šã¾ã™ã€‚

ã€Œã‚„ã‚ŠãŸã„ã“ã¨ãŒã‚·ãƒ³ãƒ—ãƒ«ã«ã§ããŸã€ã‚¤ãƒ³ãƒ•ãƒ©ä¸Šã¯ï¼ˆãŸã ã—dltã¯èŠ¸ç´°ã‹ã„ã“ã¨ã—ã¦ã„ã‚‹ï¼‰ã€ ã¨ã„ã†ã®ãŒçŽ‡ç›´ãªæ„Ÿæƒ³ã§ã™ã€‚

ADF + SHIR ã®æ§‹æˆã§ã¯ã€Œè¨å®šãŒå¤šã™ãŽã¦ã©ã“ã«ä½•ãŒã‚ã‚‹ã‹ã‚ã‹ã‚‰ãªããªã‚‹ã€ã¨ã„ã†çŠ¶æ…‹ã§ã—ãŸãŒã€dlt ã§ã¯ Python ãƒ•ã‚¡ã‚¤ãƒ«ã‚’è¦‹ã‚Œã°ä½•ã‚’ã‚„ã£ã¦ã„ã‚‹ã‹ãŒå…¨éƒ¨ã‚ã‹ã‚‹ ã¨ã„ã†çŠ¶æ…‹ã«ãªã‚Šã¾ã—ãŸã€‚

ä¸€æ–¹ã§ã€å†’é ã§ã‚‚è§¦ã‚ŒãŸé€šã‚Š CosmosDB for PostgreSQL ã® Read Replica ã«ã¯ç‹¬ç‰¹ã®åˆ¶ç´„ãŒã‚ã‚Šã€ã€Œãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’èªã‚€ã ã‘ã§ã¯ã‚ã‹ã‚‰ãªã„ã€ãƒ¬ãƒ™ãƒ«ã®ãƒãƒžã‚Šã©ã“ã‚ãŒã‚ã‚Šã¾ã—ãŸã€‚ç‰¹ã« WAL ç«¶åˆã¨ NullPool ã¯ã€å®Ÿéš›ã«å‹•ã‹ã—ã¦ã‚¨ãƒ©ãƒ¼ã‚’è¦‹ã‚‹ã¾ã§æ°—ã¥ã‘ã¾ã›ã‚“ã§ã—ãŸã€‚

ãã—ã¦ã€Cosmos DB for PostgreSQLã®åˆ¶ç´„ã‚’å›žé¿ã™ã‚‹ãŸã‚ã®å®Ÿè£…ã‚„è¨å®šãŒç…©é›‘ã«ãªã£ã¦ã—ã¾ã£ãŸã®ã¯åçœã§ã™ã€‚ãªã‚‹ã¹ããƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆåŒ–ã€ãƒ†ã‚¹ãƒˆã«ã¯è½ã¨ã—ã¦ã„ã‚‹ã‚‚ã®ã®è² å‚µåŒ–ã—ãªã„ã‚ˆã†ã«ã‚±ã‚¢ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚

çµã³

æœ¬ãƒ–ãƒã‚°ã§ã¯ã€

dltï¼ˆdata load toolï¼‰ã¯ã€ŒPythonã§æ›¸ãã ã‘ã€ã®ã‚·ãƒ³ãƒ—ãƒ«ã•ãŒå¼·ã¿ã€‚ SQLAlchemy ã¨çµ„ã¿åˆã‚ã›ã‚‹ã ã‘ã§ PostgreSQL â†’ Parquet â†’ Azure Blob ãŒå®Œçµã™ã‚‹&Container App Jobã¨ã®ç›¸æ€§ãŒè‰¯ã„ã€‚

ADF + Self-hosted IR ã¯é‹ç”¨è¤‡é›‘æ€§ãŒé«˜ãã€Private æŽ¥ç¶šç’°å¢ƒã§ã¯å°Žå…¥ã«è¦šæ‚ŸãŒå¿…è¦ã€‚

Cosmos DB for PostgreSQLã® Read Replica çµŒç”±ã®é€£æºã«è¦æ³¨æ„ã€‚ Server-side Cursorã¨ã® WAL ç«¶åˆã€NullPool ã®å¿…è¦æ€§ã€OOM å¯¾ç–ãªã©ã€ã‚„ã£ã¦ã‹ã‚‰æ°—ãŒã¤ããƒã‚¤ãƒ³ãƒˆãŒè¤‡æ•°ã€‚

ã€ŒPython ã§æ›¸ã‘ã‚‹ ETL ã‚’æŽ¢ã—ã¦ã„ã‚‹ã€ã€ŒADFã‚’æŽ¡ç”¨ã™ã¹ãã‹å¦ã‹ã€ã€ŒCosmos DB for PostgreSQLã‚’ä½¿ã£ãŸãƒ‡ãƒ¼ã‚¿åŸºç›¤ã‚’ä½œã‚ã†ã¨ã—ã¦ã„ã‚‹ã€ã¨ã„ã†æ–¹ã®å‚è€ƒã«ãªã‚Œã°å¬‰ã—ã„ã§ã™ã€‚

ãªãŠã€ä»Šå›žã®ã‚±ãƒ¼ã‚¹ã¯ã‚ãã¾ã§ã€ŒADFã‚„Cosmos DB for PostgreSQLã®ãƒ¦ãƒ¼ã‚¹ã‚±ãƒ¼ã‚¹ã¨ã®ã‹ã¿åˆã‚ã›ãŒæ‚ªã‹ã£ãŸã€ã¨ã„ã†ã ã‘ã§ã‚ã‚Šã€ã‚µãƒ¼ãƒ“ã‚¹ãƒ»è£½å“ã¨ã—ã¦ã®å„ªåŠ£ã§ã¯ãªã„äº‹ã¯ä¸€å¿œè£œè¶³ã—ã¦ãŠãã¾ã™*4ã€‚

Ai Workforce SRE ãƒãƒ¼ãƒ ã§ã¯ã€å¼•ãç¶šããƒ‡ãƒ¼ã‚¿åŸºç›¤ã®æ•´å‚™ã‚’é€²ã‚ã¦ã„ãã¾ã™ã€‚

æ¬¡ã®ã‚¹ãƒ†ãƒƒãƒ—ã¨ã—ã¦ Snowflakeç’°å¢ƒã®æ§‹ç¯‰ã€dbt ã«ã‚ˆã‚‹åˆ†æžãƒ¬ã‚¤ãƒ¤ãƒ¼ã®æ•´å‚™ã‚‚æŽ§ãˆã¦ãŠã‚Šã€ã¾ãŸãƒã‚¿ãŒã§ããŸã‚‰ãƒ–ãƒã‚°ã«æ›¸ã“ã†ã¨æ€ã„ã¾ã™ã€‚

ã¾ãŸã€SREãŠã‚ˆã³ãƒ‡ãƒ¼ã‚¿ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢å‹Ÿé›†ä¸ã§ã™ã®ã§èˆˆå‘³ãŒã‚ã‚‹æ–¹ã¯æ˜¯éžã‚«ã‚¸ãƒ¥ã‚¢ãƒ«é¢è«‡ã§ã‚‚ä½•ã§ã‚‚ã—ã¾ã—ã‚‡ã†ï¼

open.talentio.com

æœ€å¾Œã¾ã§ãŠèªã¿ã„ãŸã ãã‚ã‚ŠãŒã¨ã†ã”ã–ã„ã¾ã—ãŸã€‚

*1:ã²ã¨æ˜”å‰ã§è¨€ãˆã°Embulkã¿ãŸã„ãªã“ã¨ãŒã‚„ã‚ŠãŸã‹ã£ãŸã‚¤ãƒ¡ãƒ¼ã‚¸ã§ã™ã€‚

*2:Write-Ahead Logï¼ˆãƒã‚°å…ˆè¡Œæ›¸ãè¾¼ã¿ï¼‰ã®ã“ã¨ã€‚

*3:é€šå¸¸ã®PostgreSQLã§ã‚ã‚Œã° max_standby_streaming_delay ç‰ã§èª¿æ•´ã§ãã¾ã™ãŒã€Azure Cosmos DB for PostgreSQL ã§ã¯ã“ã‚Œã‚‰ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãŒè¨å®šä¸å¯ã§ã€ã‹ã¤ master DB ã¸ã®å½±éŸ¿ã‚‚ä¸Žãˆã‚‰ã‚Œãªã„åˆ¶ç´„ãŒã‚ã‚Šã¾ã™ã€‚

*4:ADFã¯ä½¿ã†ã“ã¨ãªãçµ‚ã‚ã‚Šã¾ã—ãŸãŒã€Cosmos DB for PostgreSQLè‡ªä½“ã¯Ai Workforceã®ç«‹ã¡ä¸Šã’æœŸã‹ã‚‰ã„ã„æ„Ÿã˜ã«ä½¿ãˆã¦ã„ã‚‹ã®ã§è‰¯ã„ãƒ—ãƒãƒ€ã‚¯ãƒˆã ã¨æ€ã„ã¾ã™ã€‚