Bytes and encodings in Python
textではなく、ページのビットマップイメージを作成する方法で、おそらく.pdfにスキャンしています(これはかなり頻繁に自分で行います)。言い換えれば、コンピュータは文字を文字として認識せず、一連の点として認識します。これは、テキストをデジタル記録して保存する効率的な方法ではありません。
光学式文字読取装置(OCR)ソフトウェアを使用する方法があります。おそらくあなたのプリンタにバンドルされているものもあります。これらのプログラムは、スキャンしたページを見て、画像をテキストに変換します。彼らは完璧ではありませんが、そのエラーはまれであり、ほとんど常にスペルチェッカーに捕まえられます。一方、OCRスキャンでは、ページのグラフィックスと書式が失われ、テキストだけが表示されます。それが問題であるかどうかは、スキャンしている内容によって異なります。
OCRスキャンが実用的でない場合は、より低い解像度で、カラーではなく白黒でスキャンしてみてください。
ファイルを十分に小さくできない場合は、大きな電子メールの添付ファイルを送信するためのより良い方法を参照してください。
http:/ / /forums.pcworld.com/message/138427.
あなたの技術に関する質問を[email protected]で私に送ってください。あるいは、PCW Answer Lineフォーラムで役立つ人々のコミュニティに投稿してください。