Car-tech

Google:1億2000万本の異なる書籍が公開されている

Anonim

番号の見積もり世界の情報を整理するという野心的な目標を達成するためにまだ行われていない作業のロードマップも提供しています。

あなたは、世界のすべての書籍を電子化しようとしている会社の一員です。最初に出てくる質問は、「そこに何本の本があるのですか?」と、Taycherはブログの投稿で説明しています。 > [さらに読む:最高のテレビストリーミングサービス]

合理的な近似を提示するため、同社は国際標準書籍番号(ISBN)などの複数のカタログシステムから書籍情報を取り込み始めた。

そのようなカタログは参考になるものの、 、 しかしながら。たとえば、ISBNは1960年代から書籍に割り当てられており、西洋諸国でのみ使用される傾向があります。

ISBN番号には複数の書籍が割り当てられており、書籍以外の項目にはISBNが割り当てられています。

Googleのエンジニアは、約150のカタログやディレクトリを使い分けるプログラムを作成し、重複したエントリを排除することができました。 Taycher氏は説明する。たとえば、テキストのソフトカバーやハードカバー版は、2つの書籍として数えられ、シェイクスピアのような一般的なテキストのさまざまなバージョン"ハムレット"には、それらに含まれる可能性のある序文や解説が含まれています。

6月の時点で、ボストンのUSENIX Annual Technical ConferenceでGoogle BooksのエンジニアリングマネージャーJon Orwantが発表したプレゼンテーションによると、同社は1,200万本の書籍をスキャンしています。これらの書籍は、約480の言語で書かれています(Star Trek起源のKlingon言語の3冊を含む)。

同社は、10年以内に既存の書籍のスキャンを完了する予定です。 Orwant氏によると、仮想コレクションは40億ページと2兆の単語で構成されている、とOrwant氏は説明しています。

世界の書籍の約20%が公開されています。これらの書籍の約10〜15%が印刷されています。残りの書籍(すべてのタイトルの大部分)はまだ著作権で保護されていますが、絶版になっています。 Googleは、世界中の約40の大きな図書館から、それらの書籍を電子化するためにこれらの書籍の借用を進めています。

これは、印刷物であるが、まだ著作権の対象となっている書籍でスキャンするこの行為です

ニューヨーク州南部地方裁判所がこれらの書籍をスキャンできるかどうかの判断を待っている。

2005年には著者制作者米国出版社協会は、書籍をスキャンして著者の著作権を侵害していると主張して、検索巨人に対して集団訴訟を別々に提起した。

Googleは、著者らが主張するためのロイヤルティを取っておくことができます。同社はまた、これらの書籍の一部をWeb検索に公開することを望んでおり、この利用は米国の公正使用の原則に該当すると主張している。

世界中の書籍をスキャンすると、検索の改善に加えて他の利点がもたらされるだろう、これらのボリュームがすべてデジタル化されると、その内容は分析の対象となり、新しい洞察が得られます。言語学者は、特定の単語が普及し始めたとき、または最初にこれらの単語を使用し始めたときを発見することができます。

たとえば、アイザック・ニュートンやゴットフリート・ライプニッツ、あるいは他の誰かが完全に計算論を発明したかどうかについて、議論を伝えることができます。

「Googleブック検索は、フレーズではなくコンセプトのために、 "Orwantは説明した。 「無限のアイデアを変えて、異なる言語に翻訳し、並行して検索することができます。」

「私たちが望むことは、

IDG News Serviceの編集者Juan Carlos Perezがこのレポートに寄稿しました。

Joab Jacksonはエンタープライズソフトウェアをカバーしています

The IDG News Service

に関する一般的なニュース速報です。 @Joab_JacksonでTwitterのJoabに従ってください。 Joabの電子メールアドレスは[email protected]です。