Back to Question Center
0

ਸਿਮਟਲ - ਵੈਬ ਪੰਨਿਆਂ ਨੂੰ ਕਿਵੇਂ ਮਿਟਾਉਣਾ ਹੈ?

1 answers:

ਸੁੰਦਰ ਸੂਪ ਇੱਕ ਪਾਇਥਨ ਲਾਇਬਰੇਰੀ ਹੈ ਜੋ ਇੱਕ ਪੇਰਸ ਟ੍ਰੀ ਬਣਾ ਕੇ ਵੈਬ ਪੇਜ ਖੋਲ੍ਹਣ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ. XML ਅਤੇ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ. ਵੈਬ ਘੋਟਣਾ, ਵੈੱਬਸਾਇਟਾਂ ਅਤੇ ਪੰਨਿਆਂ ਤੋਂ ਡਾਟਾ ਕੱਢਣ ਦੀ ਤਕਨੀਕ ਦਾ ਵਿਸਥਾਰ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਪ੍ਰਬੰਧਨ ਖੇਤਰਾਂ ਵਿੱਚ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ. ਜ਼ਿਆਦਾਤਰ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਡਾਟਾ ਵਿਗਿਆਨ ਵਿੱਚ ਪਾਇਥਨ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਭਾਸ਼ਾ ਪੂਰਣ ਲੋੜ ਹੈ.

ਪਾਇਥਨ 3 ਟੂਲ ਟੁਕੜੇ ਅਤੇ ਮੈਡਿਊਲ ਹਨ ਜੋ ਤੁਸੀਂ ਆਪਣੇ ਡਾਟਾ ਪ੍ਰਬੰਧਨ ਪ੍ਰੋਜੈਕਟ ਲਈ ਅਰਜ਼ੀ ਦੇ ਸਕਦੇ ਹੋ.ਵਰਤਮਾਨ ਵਿੱਚ ਸੁੰਦਰ ਸੂਪ 4 ਦੇ ਤੌਰ ਤੇ ਚੱਲ ਰਿਹਾ ਹੈ, ਇਹ ਮੈਡਿਊਲ ਪਾਇਥਨ 3 ਅਤੇ ਪਾਈਥਨ 2 ਦੋਵਾਂ ਦੇ ਅਨੁਕੂਲ ਹੈ - paã±uelos para hombre. 7. ਸੁੰਦਰ ਸੂਪ 4 ਮੋਡੀਊਲ ਗੈਰ-ਬੰਦ ਟੈਗ ਸੂਪ ਲਈ ਪਾਰਸ ਟ੍ਰੀ ਬਣਾਉਣ ਦੇ ਸਮਰੱਥ ਹੈ. ਇਸ ਟਿਯੂਟੋਰਿਅਲ ਵਿਚ, ਤੁਸੀਂ ਸਿੱਖੋਗੇ ਕਿ ਸਫੈਦ ਕਿਵੇਂ ਕੀਤਾ ਜਾਏਗਾ ਅਤੇ ਸਕ੍ਰੈਪਡ ਡੇਟਾ ਨੂੰ ਇਕ CSV ਫਾਈਲ ਵਿਚ ਕਿਵੇਂ ਲਿਖਣਾ ਹੈ.

ਸ਼ੁਰੂਆਤ ਕਰਨੀ

ਸ਼ੁਰੂਆਤ ਕਰਨ ਲਈ, ਆਪਣੇ ਕੰਪਿਊਟਰ ਤੇ ਇੱਕ ਸਰਵਰ ਜਾਂ ਲੋਕਲ-ਅਧਾਰਿਤ ਪਾਇਥਨ ਕੋਡਿੰਗ ਵਾਤਾਵਰਨ ਸੈਟ ਅਪ ਕਰੋ. ਤੁਹਾਨੂੰ ਆਪਣੀ ਮਸ਼ੀਨ 'ਤੇ ਸੁੰਦਰ ਸੂਪ ਅਤੇ ਬੇਨਤੀ ਮਾੱਡਲ ਵੀ ਲਗਾਉਣੇ ਚਾਹੀਦੇ ਹਨ. ਦੋਵੇਂ ਮੌਡਿਊਲਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਦਾ ਗਿਆਨ ਵੀ ਇੱਕ ਜ਼ਰੂਰੀ ਪੂਰਿ-ਮੁਹਾਰਤ ਹੈ. HTML ਟੈਗਿੰਗ ਅਤੇ ਢਾਂਚੇ ਨਾਲ ਜਾਣੂ ਇੱਕ ਹੋਰ ਲਾਭ ਵੀ ਹੈ.

ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਸਮਝਣਾ

ਇਸ ਸੰਦਰਭ ਵਿਚ, ਨੈਸ਼ਨਲ ਗੈਲਰੀ ਆਫ਼ ਆਰਟ ਦੇ ਅਸਲੀ ਅੰਕੜੇ ਵਰਤੇ ਜਾਣਗੇ ਕਿ ਤੁਸੀਂ ਸੁੰਦਰ ਸੂਪ 4 ਕਿਵੇਂ ਵਰਤ ਸਕਦੇ ਹੋ. ਨੈਸ਼ਨਲ ਗੈਲਰੀ ਆਫ਼ ਆਰਟ ਵਿੱਚ 120,000 ਟੁਕੜੇ ਸ਼ਾਮਲ ਹਨ ਜੋ ਲਗਭਗ 13,000 ਕਲਾਕਾਰਾਂ ਦੁਆਰਾ ਕੀਤੇ ਜਾਂਦੇ ਹਨ. ਇਹ ਕਲਾ ਵਾਸ਼ਿੰਗਟਨ ਡੀ ਵਿਚ ਅਧਾਰਿਤ ਹੈ. ਸੀ, ਯੂਨਾਈਟਡ ਸਟੇਟਸ.

ਸੁੰਦਰ ਸੂਪ ਨਾਲ ਵੈਬ ਡਾਟਾ ਕੱਢਣਾ ਇਹ ਗੁੰਝਲਦਾਰ ਨਹੀਂ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜੇ ਤੁਸੀਂ ਚਿੱਠੀ Z ਤੇ ਧਿਆਨ ਲਗਾਉਂਦੇ ਹੋ, ਤਾਂ ਮਾਰਕ ਕਰੋ ਅਤੇ ਸੂਚੀ ਵਿੱਚ ਪਹਿਲੇ ਨਾਂ ਨੂੰ ਨੋਟ ਕਰੋ. ਇਸ ਕੇਸ ਵਿਚ, ਪਹਿਲਾ ਨਾਂ ਜ਼ਾਗਲੀਆ, ਨਿਕੋਲਾ ਹੈ. ਇਕਸਾਰਤਾ ਲਈ, ਪੰਨੇ ਦੀ ਗਿਣਤੀ ਅਤੇ ਉਸ ਪੰਨੇ ਤੇ ਆਖਰੀ ਕਲਾਕਾਰ ਦਾ ਨਾਮ ਦੱਸੋ.

ਬੇਨਤੀਆਂ ਅਤੇ ਸੁੰਦਰ ਸੂਪ ਲਾਈਬ੍ਰੇਰੀ ਨੂੰ ਕਿਵੇਂ ਆਯਾਤ ਕਰਨਾ ਹੈ

ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਆਯਾਤ ਕਰਨ ਲਈ, ਆਪਣੇ ਪਾਇਥਨ 3 ਪ੍ਰੋਗਰਾਮਿੰਗ ਵਾਤਾਵਰਣ ਨੂੰ ਚਾਲੂ ਕਰੋ. ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਚੈੱਕ ਕਰੋ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਵਾਤਾਵਰਨ ਨਾਲ ਉਸੇ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਹੋ. ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਓ. my_env / bin / activate.

ਇਕ ਨਵੀਂ ਫਾਈਲ ਬਣਾਉ ਅਤੇ ਸੁੰਦਰ ਸੂਪ ਅਤੇ ਬੇਨਤੀਆਂ ਦੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਆਯਾਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੋ. ਬੇਨਤੀ ਲਾਇਬਰੇਰੀ ਤੁਹਾਨੂੰ ਪੜ੍ਹਨਯੋਗ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਆਪਣੇ ਪਾਇਥਨ ਪ੍ਰੋਗਰਾਮਾਂ ਦੇ ਅੰਦਰ HTTP ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦੇਵੇਗੀ. ਸੁੰਦਰ ਸੂਪ, ਦੂਜੇ ਪਾਸੇ, ਜਲਦੀ ਨਾਲ ਪੇਜ ਖੋਜ਼ ਕਰਨ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ. ਸੁੰਦਰ ਸੂਪ ਆਯਾਤ ਕਰਨ ਲਈ ਬੀ ਐਸ 4 ਦੀ ਵਰਤੋਂ ਕਰੋ.

ਇੱਕ ਵੈਬ ਪੇਜ ਕਿਵੇਂ ਇਕੱਠਾ ਕਰਨਾ ਅਤੇ ਪਾਰਸ ਕਰਨਾ ਹੈ

ਬੇਨਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਤੁਹਾਡੇ ਪਹਿਲੇ ਪੰਨੇ ਦਾ URL ਇੱਕਤਰ ਕਰਨਾ. ਪਹਿਲੇ ਪੇਜ ਦੇ ਯੂਆਰਐਲ ਵੇਰੀਏਬਲ ਪੇਜ਼ ਨੂੰ ਲਗਾਇਆ ਜਾਵੇਗਾ. ਬੇਨਤੀਆਂ ਤੋਂ ਇੱਕ ਸੁੰਦਰ ਸੂਪ ਆਬਜੈਕਟ ਬਣਾਉ ਅਤੇ ਪਾਇਥਨ ਦੇ ਪਾਰਸਰ ਤੋਂ ਆਬਜੈਕਟ ਨੂੰ ਪਾਰਸ ਕਰੋ.

ਇਸ ਟਿਯੂਟੋਰਿਅਲ ਵਿਚ, ਉਦੇਸ਼ ਲਿੰਕ ਅਤੇ ਕਲਾਕਾਰਾਂ ਦੇ ਨਾਮ ਇਕੱਠੇ ਕਰਨਾ ਹੈ. ਉਦਾਹਰਣ ਦੇ ਲਈ, ਤੁਸੀਂ ਕਲਾਕਾਰ ਦੀ ਤਾਰੀਖਾਂ ਅਤੇ ਕੌਮੀਤਾਵਾਂ ਇਕੱਠੀਆਂ ਕਰ ਸਕਦੇ ਹੋ. ਵਿੰਡੋਜ਼ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, ਕਲਾਕਾਰ ਦੇ ਪਹਿਲੇ ਨਾਂ 'ਤੇ ਸੱਜਾ ਕਲਿਕ ਕਰੋ. ਇਸ ਕੇਸ ਵਿੱਚ, ਜ਼ਾਗਲੀਆ, ਨਿਕਕੋਲਾ ਦੀ ਵਰਤੋਂ ਕਰੋ. Mac OS ਉਪਭੋਗਤਾਵਾਂ ਲਈ, "CTRL" ਟੈਪ ਕਰੋ ਅਤੇ ਨਾਮ ਤੇ ਕਲਿਕ ਕਰੋ. "ਡਿਲੀਵਰੀ ਐਲੀਮੈਂਟ" ਮੀਨੂ 'ਤੇ ਕਲਿਕ ਕਰੋ ਜੋ ਵੈੱਬ ਡਿਵੈਲਪਰਾਂ ਦੇ ਟੂਲਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਲਈ ਤੁਹਾਡੀ ਸਕਰੀਨ ਤੇ ਪੌਪ-ਅਪਸ. ਸੁੰਦਰ ਸੂਪ ਬਣਾਉਣ ਲਈ ਕਲਾਕਾਰ ਦੇ ਨਾਂ ਨੂੰ ਛਾਪੋ ਇੱਕ ਰੁੱਖ ਨੂੰ ਤੁਰੰਤ ਪਾਰਸ ਕਰੋ.

ਹੇਠਲੇ ਲਿੰਕ ਨੂੰ ਹਟਾਉਣਾ

ਆਪਣੇ ਵੈਬ ਪੰਨੇ 'ਤੇ ਹੇਠਲੇ ਲਿੰਕਾਂ ਨੂੰ ਹਟਾਉਣ ਲਈ, ਥੀਮ ਨੂੰ ਸੱਜਾ ਕਲਿਕ ਕਰਕੇ DOM ਦੀ ਜਾਂਚ ਕਰੋ. ਤੁਸੀਂ ਇਹ ਪਛਾਣ ਕਰ ਸਕੋਗੇ ਕਿ ਲਿੰਕ ਇੱਕ HTML ਸਾਰਣੀ ਦੇ ਅਧੀਨ ਹਨ. ਸੁੰਦਰ ਸੂਪ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਪਾਰਸ ਟ੍ਰੀ ਤੋਂ ਟੈਗ ਹਟਾਉਣ ਲਈ "ਕੰਪ੍ਰੈਕਸ ਵਿਧੀ" ਦੀ ਵਰਤੋਂ ਕਰੋ.

ਇੱਕ ਟੈਗ

ਤੋਂ ਸੰਖੇਪ ਕਿਵੇਂ ਕੱਢੀਏ? ਤੁਹਾਨੂੰ ਪੂਰਾ ਲਿੰਕ ਟੈਗ ਛਾਪਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਇੱਕ ਟੈਗ ਤੋਂ ਸਮੱਗਰੀ ਹਟਾਉਣ ਲਈ ਸੁੰਦਰ ਸੂਪ ਦੀ ਵਰਤੋਂ ਕਰੋ. ਤੁਸੀਂ ਸੁੰਦਰ ਸੂਪ 4 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਲਾਕਾਰਾਂ ਨਾਲ ਸੰਬੰਧਿਤ URL ਵੀ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹੋ.

'ਤੇ ਕਬਜ਼ਾ ਡਾਟਾ ਇੱਕ CSV ਫਾਇਲ ਨੂੰ ਉਤਾਰਨ

CSV ਫਾਇਲ ਤੁਹਾਨੂੰ ਇੱਕ ਸਧਾਰਨ ਪਾਠ ਵਿੱਚ ਵਿਧੀਵਤ ਡਾਟਾ ਸੰਭਾਲਣ ਲਈ ਸਹਾਇਕ ਹੋਵੇਗਾ, ਇੱਕ ਫਾਰਮੈਟ ਹੈ, ਜੋ ਕਿ ਜਿਆਦਾਤਰ datasheets ਲਈ ਵਰਤਿਆ ਗਿਆ ਹੈ. ਪਾਈਥਨ ਵਿਚ ਸਾਦੇ ਟੈਕਸਟ ਫਾਈਲਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਜਾਣਕਾਰੀ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ.

ਵੈਬ ਡੇਟਾ ਐਕਸਟਰੈਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਪੇਜਾਂ ਨੂੰ ਉਕਸਾਉਣ ਅਤੇ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਉਹਨਾਂ ਵੈੱਬਸਾਈਟਾਂ ਦੀ ਪਰਵਾਹ ਕਰੋ ਜਿਨ੍ਹਾਂ ਤੋਂ ਤੁਹਾਨੂੰ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਹੁੰਦੀ ਹੈ. ਕੁਝ ਡਾਇਨਾਮਿਕ ਵੈੱਬਸਾਈਟਾਂ ਉਨ੍ਹਾਂ ਦੀਆਂ ਸਾਈਟਾਂ ਉੱਤੇ ਵੈਬ ਡਾਟਾ ਕੱਢਣ ਨੂੰ ਰੋਕਦੀਆਂ ਹਨ. ਸੋਹਣੇ ਸੂਪ ਅਤੇ ਪਾਇਥਨ 3 ਨਾਲ ਪੇਜ਼ ਕਰਨ ਲਈ ਇਹ ਸਧਾਰਨ ਹੈ.

December 22, 2017