Grote data - opslag en vraag

stemmen
2

We hebben een enorme gegevens van ongeveer 300 miljoen platen, die zal worden bijgewerkt om de 3-6 months.We nodig om deze informatie te vragen (continu, real-time) om wat information.What krijgen zijn de opties - een RDBMS (mysql) of een andere optie, zoals Hadoop.Which beter zal zijn?

De vraag is gesteld op 09/12/2008 om 15:30
bron van user
In andere talen...                            


5 antwoorden

stemmen
3

300M gegevens is ruim binnen de grenzen van de reguliere relationele databases en live bevraging mag geen probleem zijn als u indexen goed te gebruiken.

Hadoop klinkt als overkill, tenzij je echt sterk gedistribueerde en redundante data nodig heeft, en het zal het ook moeilijker maken om steun te vinden als je in de problemen of voor optimalisaties uit te voeren.

antwoordde op 09/12/2008 om 15:54
bron van user

stemmen
1

Zoals anderen al hebben gezegd, kan modern RDBMS behandelen dergelijke tabellen, afhankelijk van de query's en schema (sommige optimalisaties zou moeten worden gemaakt). Als je een goede toets om de rijen (zoals een datum kolom) splitsen, dan partioniong / sharding technieken zullen u helpen om de tafel te splitsen in meerdere kleine.

U kunt meer informatie over deze en andere schaaltechnieken gelezen in een vraag vroeg ik enige tijd geleden hier - Schalen oplossingen voor MySQL (replicatie, clustering)

antwoordde op 09/12/2008 om 15:45
bron van user

stemmen
1

Nou, ik heb een paar PostgreSQL databases met een aantal tafels met meer dan 700M platen en ze zijn de hele tijd bijgewerkt.

Een query in die tabellen werkt zeer snel (een paar milliseconden) en zonder enige problemen. Nu, mijn gegevens is vrij eenvoudig, en ik heb indexen op de velden I te vragen.

Dus, zou ik zeggen, zal het hangt allemaal af van wat voor soort vragen die u zult maken, en als je genoeg geld om te besteden aan een snelle schijven.

antwoordde op 09/12/2008 om 15:37
bron van user

stemmen
0

300 Miljoen telt niet echt zo groot deze dagen :-).

Als u meestal bevragen, en, weet je min of meer welke vorm de query MySQL tabellen met de juiste indexen dan neemt werkt prima.

Als je constant appying updates op hetzelfde moment als u query's en kies vervolgens PostgreSQL want het heeft een betere concurrency handling.

MS SQL Server, Sybase, Oracle en DB2 zal al omgaan met deze volumes met gemak als uw bedrijf geeft de voorkeur aan om geld te spenderen.

Als aan de andere kant heb je van plan om echt vrij formaat queries op ongestructureerde data te doen dan Hadoop of iets dergelijks zou een betere gok.

antwoordde op 09/12/2008 om 15:48
bron van user

stemmen
0

300 miljoen records moeten geen problemen om een ​​top-end RDBMS zoals Oracle, SQL Server, DB2 opleveren. Ik ben niet zeker over MySQL, maar ik ben er vrij zeker van dat het wordt gebruikt voor een aantal vrij grote databases deze dagen.

antwoordde op 09/12/2008 om 15:41
bron van user

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more